universidade federal de sÃo carlos centro de ciÊncias...
TRANSCRIPT
UNIVERSIDADE FEDERAL DE SÃO CARLOS
CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA
DEPARTAMENTO DE COMPUTAÇÃO
PROGRAMA DE PÓS-GRADUAÇÃO EM
CIÊNCIA DA COMPUTAÇÃO
Extração de Informação em Artigos Científicos Relacionados à Doença
Anemia Falciforme
Pablo Freire Matos
São Carlos - SP
Abril/2009
RESUMO
O objetivo deste trabalho de pesquisa em nível de mestrado é extrair informação em artigos
científicos completos sobre efeitos relacionados ao domínio da doença Anemia Falciforme
(AF). Para isso, primeiramente é necessário converter os artigos inerentemente no formato
não-estruturado (PDF) para o formato semi-estruturado (XML), permitindo acesso aos níveis
estruturais dos artigos por: página, parágrafo e sentença. Em seguida, a partir do acesso ao
documento XML, será possível processar o texto a fim de identificar os efeitos
positivo/benefício e negativo/complicação da AF. Nesse contexto será proposto uma
metodologia de pré-processamento textual, utilizando a combinação de três abordagens para
extrair informação no domínio biomédico: abordagem baseada em aprendizado de
máquina, utilizada para classificar as sentenças em complicação, benefício e outros (não é
complicação nem benefício), as quais são processadas do documento XML; abordagem
baseada em dicionário, utilizada para identificar os efeitos da AF nas sentenças
classificadas; e abordagem baseada em regras, utilizada para identificar padrões de extração
com expressões regulares, reduzindo os falsos positivos e assim, aumentando a precisão e a
revocação. Um desafio na extração de informação no contexto deste trabalho é lidar com um
grande volume de dados. Assim, surge a oportunidade de utilizar a Mineração de Textos para
processar arquivos em formato não-estruturado, identificando padrões textuais que serão
armazenados no formato estruturado em um banco de dados, para ser posteriormente utilizado
por algoritmos de Mineração de Dados.
Palavras-chave: Domínio Biomédico, Pré-processamento na Mineração de Textos, Extração
de Informação, Banco de Dados Médicos, Doença Anemia Falciforme.
ABSTRACT
The main goal of this research work is to extract information about effects related to the
Sickle Cell Anemia (SCA) domain from scientific full articles. Firstly, it is necessary to
convert articles from non-structured format (PDF) to the semi-structured format (XML), in
order to allow accessing the articles structural levels: page, paragraph and sentence. As a
result, positive effect (benefit) and negative effect (complication) of SCA can be identified in
the XML document. In this context, this research work aims at creating a methodology for
textual preprocessing, using a combination of three approaches to extract information in the
biomedical domain: learning-based machine, to classify the sentences in complication,
benefit or none of them, by processing the XML document; dictionary-based approach, to
identify the SCA effects on classified sentences; and rule-based approach, to identify
extraction patterns with regular expressions, thus reducing false positive hits and increasing
recall and precision. One of the information extraction challenges is to deal with large
volumes of data. Therefore, it arises the opportunity to use the Text Mining to process non-
structured format files, identifying textual patterns that will be stored in structured format in a
database, to be subsequently used by the Data Mining algorithms.
Keywords: Biomedical Domain, Text Mining Preprocessing, Information Extraction, Medical
Database, Sickle Cell Anemia.
LISTA DE FIGURAS
Figura 1 – Pré-processamento utilizando categorização e extração de informação. .................. 9
Figura 2 – Miscigenação racial. ................................................................................................. 11
Figura 3 – Frequência do gene S nas diferentes regiões do Brasil. .......................................... 12
Figura 4 – Elementos do sangue. ............................................................................................... 12
Figura 5 – Hemácia no formato de foice (meia lua). ................................................................. 12
Figura 6 – Hemácias normais (a) e Falciformes (b). ................................................................. 13
Figura 7 – Probabilidade de nascer com Anemia Falciforme. .................................................. 14
Figura 8 – Formato dos dados textuais. ..................................................................................... 14
Figura 9 – Densidade de informação em um artigo completo. ................................................. 20
Figura 10 – Hierarquia do aprendizado. .................................................................................... 26
Figura 11 – Categorização de documentos. ............................................................................... 35
Figura 12 – Agrupamento de documentos. ................................................................................ 35
Figura 13 – Modelo de descoberta A-B-C. ................................................................................ 36
Figura 14 – Processo de Mineração de Textos em quatro etapas. ............................................ 37
Figura 15 – Medidas dependem do resultado da consulta (oval/azul e roxo). ......................... 40
Figura 16 – Passos para identificação de termo no texto. ......................................................... 48
Figura 17 – Exemplo de Cross-Validation. ............................................................................... 61
Figura 18 – Exemplo de Stratified Cross-Validation. ............................................................... 62
Figura 19 – Exemplo de Leave-One-Out. .................................................................................. 62
Figura 20 – Exemplo de Bootstrap. ........................................................................................... 63
Figura 21 – Ferramenta Mover. ................................................................................................. 68
Figura 22 – Exemplo de um documento XML com etiquetas de quatro seções. ..................... 80
Figura 23 – Processo de extração de padrão e data warehouse. ............................................... 81
Figura 24 – Processo para recuperar e extrair informação do Pharmspresso. .......................... 82
Figura 25 – Arquitetura do sistema DORS-SCA. ..................................................................... 85
Figura 26 – Passos do sistema SCAtRanslator para conversão de arquivo PDF → XML. ..... 87
Figura 27 – Exemplo de documento XML gerado pela ferramenta SCAtRanslator. ............... 87
Figura 28 – Processo de Mineração de Textos. ......................................................................... 89
Figura 29 – Treinamento e teste na ferramenta Mover. ............................................................ 90
Figura 30 – Exemplo do Mover na classificação de sentenças da AF. ..................................... 91
Figura 31 – Processo geral de extração de informação. ............................................................ 94
LISTA DE TABELAS
Tabela 1 – Exemplos de termos de efeitos (positivo e negativo). ............................................. 16
Tabela 2 – Cinco tarefas de extração de informação. ................................................................ 28
Tabela 3 – Matriz de confusão de duas classes (Complicação/Não Complicação).................. 41
Tabela 4 – Exemplo de anotação de dez sentenças. .................................................................. 44
Tabela 5 – Exemplo de matriz de confusão 2 x 2. ..................................................................... 44
Tabela 6 – Matriz de confusão genérica. ................................................................................... 44
Tabela 7 – Exemplo de matriz de confusão 3 x 3. ..................................................................... 45
Tabela 8 – Escala de seis níveis de concordância. .................................................................... 45
Tabela 9 – Exemplo de sentença com termos sobre complicações (em negrito) da AF. ......... 48
Tabela 10 – Resumo dos trabalhos com dicionário. .................................................................. 51
Tabela 11 – Exemplo de tradução para o formato do BLAST. ................................................. 51
Tabela 12 – Trabalhos com regras. ............................................................................................ 54
Tabela 13 – Resumo dos métodos de particionamento. ............................................................ 63
Tabela 14 – Resumo de trabalhos que utilizam estruturas retóricas. ........................................ 69
Tabela 15 – Trabalhos correlatos que extraem informação de resumos. .................................. 73
Tabela 16 – Trabalhos correlatos que extraem informação de artigos completos.................... 75
Tabela 17 – Abordagem híbrida proposta por Tanabe e Wilbur (2002a). ................................ 76
Tabela 18 – Abordagem de extração de informação proposta por Corney et al. (2004). ......... 78
Tabela 19 – Sentenças classificadas pelo Mover como sendo da classe benefício. ................. 92
Tabela 20 – Cronograma de atividades...................................................................................... 96
LISTA DE ABREVIATURAS E SIGLAS
AF Anemia Falciforme
AM Aprendizado de Máquina
API Application Programming Interface
ATR Reconhecimento Automático de Termo
EI Extração de Informação
ER Expressão Regular
HMM Modelo Escondido de Markov
HTML Hypertext Markup Language
IA Inteligência Artificial
KDD Descoberta de Conhecimento em Banco de Dados
KDT Descoberta de Conhecimento em Textos
MD Mineração de Dados
MT Mineração de Textos
NCBI National Center for Biotechnology Information
NER Reconhecimento de Entidade Nomeada
PDF Portable Document Format
PLN Processamento de Língua Natural
PMC PubMed Central
POS Part-Of-Speech
QA Perguntas e Respostas
RDT Repositório de Dicionário de Termos
RI Recuperação de Informação
SCA Sickle Cell Anemia
SVM Suport Vector Machines
URL Uniform Resource Locator
XML Extensible Markup Language
SUMÁRIO
1 INTRODUÇÃO 8
1.1 CONTEXTUALIZAÇÃO 10 1.1.1 ANEMIA FALCIFORME 10
1.1.2 VISÃO GERAL 14
1.2 MOTIVAÇÃO 16
1.3 JUSTIFICATIVA 18
1.4 OBJETIVOS 20 1.4.1 OBJETIVO GERAL 21
1.4.2 OBJETIVOS ESPECÍFICOS 21
1.5 ORGANIZAÇÃO DO TRABALHO 22
2 MINERAÇÃO DE TEXTOS 23
2.1 ÁREAS DE CONHECIMENTO EM MINERAÇÃO DE TEXTOS 24 2.1.1 PROCESSAMENTO DE LÍNGUA NATURAL 24
2.1.2 APRENDIZADO DE MÁQUINA 26
2.1.3 EXTRAÇÃO DE INFORMAÇÃO 27
2.1.4 RECUPERAÇÃO DE INFORMAÇÃO 29
2.1.5 MINERAÇÃO DE DADOS 30
2.1.5.1 Mineração de Dados x Mineração de Textos 30
2.2 DESCOBERTA DE CONHECIMENTO EM TEXTOS 31 2.2.1 PERGUNTAS E RESPOSTAS 32
2.2.2 SUMARIZAÇÃO 33
2.2.3 CATEGORIZAÇÃO 34
2.2.4 AGRUPAMENTO 35
2.2.5 GERAÇÃO DE HIPÓTESE 36
2.3 ETAPAS DO PROCESSO DE MINERAÇÃO DE TEXTOS 37 2.3.1 MÉTRICAS DE AVALIAÇÃO 39
2.3.1.1 Medidas de Desempenho 39
2.3.1.2 Medida de Concordância 43
2.4 CONSIDERAÇÕES FINAIS 45
3 EXTRAÇÃO AUTOMÁTICA 47
3.1 RECONHECIMENTO AUTOMÁTICO DE TERMO 47
3.2 ABORDAGENS PARA EXTRAÇÃO DE INFORMAÇÃO 49 3.2.1 ABORDAGEM PARA EXTRAÇÃO BASEADA EM DICIONÁRIO 50
3.2.1.1 Trabalhos com Dicionário 51
3.2.2 ABORDAGEM PARA EXTRAÇÃO BASEADA EM REGRAS 53
3.2.2.1 Trabalhos com Regras 54
3.2.3 ABORDAGEM PARA EXTRAÇÃO BASEADA EM APRENDIZADO DE MÁQUINA 56
3.2.3.1 Classificador Supervisionado: Naive Bayes 57
3.2.3.2 Medidas de Desempenho do Classificador 59
3.2.3.3 Métodos de Particionamento 60
3.2.3.4 Seleção de Características 63
3.2.3.5 Mover 66
3.2.3.6 Trabalhos com Aprendizado de Máquina 70
3.3 CONSIDERAÇÕES FINAIS 70
4 TRABALHOS CORRELATOS 73
4.1 ABGENE 75
4.2 BIORAT 77
4.3 BREMER ET AL. (2004) 78 4.3.1 CONTINUAÇÃO DO TRABALHO DE BREMER ET AL. (2004) 80
4.4 PHARMSPRESSO 81
4.5 CONSIDERAÇÕES FINAIS 82
5 PROPOSTA DE DISSERTAÇÃO DE MESTRADO 84
5.1 SISTEMA DORS-SCA 84 5.1.1 SCATRANSLATOR 85
5.1.2 SCAEXTRACTOR 88
5.2 METODOLOGIA DE EXTRAÇÃO DE INFORMAÇÃO 88 5.2.1 COLETA DE DOCUMENTOS 89
5.2.2 PRÉ-PROCESSAMENTO 90
5.2.2.1 Categorização 90
5.2.2.2 Extração de Informação 91
5.2.3 ANÁLISE E AVALIAÇÃO DOS RESULTADOS 92
5.2.4 CONSIDERAÇÕES FINAIS 93
5.3 QUESTÕES RELACIONADAS AO DESENVOLVIMENTO 94
5.4 CRONOGRAMA DE ATIVIDADES 95
REFERÊNCIAS 97
GLOSSÁRIO 112
APÊNDICE A – MODELO EER 113
APÊNDICE B – MODELO RELACIONAL 114
APÊNDICE C – DIAGRAMA DE CLASSES 115
8
1 INTRODUÇÃO
As informações relevantes estão mais em formato textual do que em imagens,
gráficos, arquivos de música e vídeo ou até mesmo em equações. Segundo Tan (1999) e Chen
(2001), das informações, respectivamente, das empresas e de conteúdo on-line do
mundo estão em documentos textuais. Estudos têm revelado que entre e de todos
os dados disponíveis nos computadores consistem em documentos não-estruturados ou semi-
estruturados, como e-mails, páginas HTML, arquivos PDF e muitos outros documentos
textuais (CHEUNG; LEE; WANG, 2005). Além disso, a quantidade de informação disponível
eletronicamente está aumentando consideravelmente nos últimos anos (GANTZ et al., 2007).
Diante da imensa quantidade de informação disponível em formato textual, os seres
humanos não são capazes de processar (i.e., ler e assimilar) toda essa informação. Nesse
contexto, a Mineração de Textos (MT) é uma tendência que favorece o processamento de
textos, viabilizando o acesso a uma grande quantidade de dados.
Este trabalho objetiva utilizar a MT para extrair informação, mais especificamente
termos, no domínio biomédico. Identificar termos nesse domínio não é uma tarefa fácil.
Aparecem vários problemas como variações de termos devido ao surgimento de novos termos
médicos e a falta de padronização tanto no advento de um novo termo quanto no uso de um
existente.
Por exemplo, variações de nomes da proteína “NF-kappa B” podem ser encontradas na
literatura (TSURUOKA; TSUJII, 2004): “NF kappa B”, “NF-kappa-B”, “NF-Kappa B”,
“NF-Kappa-B”, etc. Essas variações causam uma baixa revocação em sistemas de extração.
Assim, técnicas como aproximação de string (KRAUTHAMMER et al., 2000; TSURUOKA;
TSUJII, 2004), stemming (ONO et al., 2001), lematização (SCHUEMIE et al., 2007) e stop
words (KOU; COHEN; MURPHY, 2005) são utilizadas para amenizar esse problema.
Extrair informação do domínio biomédico não é uma tarefa trivial. Segundo
Krauthammer e Nenadic (2004), a precisão de sistemas para extração desses termos varia de
a e a revocação é aproximadamente . Esses valores são diferentes de sistemas
cuja função é identificar nomes de pessoa, organização e localização em notícias ( -
9
varia de a ) (HIRSCHMAN; MORGAN; YEH, 2002); No domínio biomédico, ainda
segundo Hirschman, Morgan e Yeh (2002), os resultados permanecem no intervalo de a
( - ).
Sabendo da dificuldade de extrair termos no domínio biomédico, etapas do processo
de Mineração de Textos são utilizadas para auxiliar no processamento textual. Segundo
Imamura (2001) e Martins (2003), o processo de MT pode ser dividido em quatro etapas:
coleta de documentos, pré-processamento, extração de padrões, e análise e avaliação dos
resultados.
O objetivo deste trabalho de pesquisa em nível de mestrado é atuar na segunda fase
(pré-processamento) que segundo Feldman e Sanger (2007) é uma das fases mais críticas do
processo de MT. Nesse sentido, a principal contribuição deste trabalho é a proposta de uma
metodologia de pré-processamento, combinando três abordagens (aprendizado de máquina,
regras e dicionário) para extrair informação no domínio biomédico (Figura 1).
Figura 1 – Pré-processamento utilizando categorização e extração de informação.
Aprendizado de máquina será utilizado para classificar as sentenças dos artigos
científicos (tarefa de categorização). Em seguida, regras e dicionário serão desenvolvidos na
tarefa de extração de informação: Regras serão construídas a partir da análise de padrões
identificados manualmente nas sentenças classificadas e serão utilizadas para aumentar a
precisão do sistema; O dicionário será construído manualmente a partir da identificação de
novos termos encontrados nos artigos científicos e técnicas serão utilizadas para amenizar as
variações de termos, a fim de aumentar a revocação da extração automática. Após o pré-
processamento, as informações identificadas serão armazenadas em um banco de dados
relacional (Figura 1).
No escopo deste trabalho, objetiva-se utilizar dessa metodologia proposta para ajudar
no processamento textual de artigos científicos completos escritos em inglês no formato PDF.
10
Esses artigos são sobre informações da doença Anemia Falciforme; doença genética e
hereditária considerada como problema de saúde pública no Brasil (SILVA, R.; RAMALHO;
CASSORLA, 1993; BATISTA; ANDRADE, 2005; RUIZ, 2007). Apesar do domínio deste
trabalho limitar a essa doença, a metodologia de extração de informação proposta (explicada
em detalhes no capítulo 5) será desenvolvida visando uma possível aplicação a outros
domínios, sendo necessário nesse caso algumas modificações nas regras e no dicionário para
se adaptar ao novo domínio.
1.1 Contextualização
Este trabalho está sendo desenvolvido em conjunto com a Universidade de São Paulo
e Fundação Hemocentro de Ribeirão Preto, Université Paris Diderot-Paris 7 e Hôpital Robert
Debré. Objetiva-se propiciar aos pesquisadores da área de saúde (médicos e biólogos) a terem
acesso prático e rápido a pesquisas em artigos científicos sobre a doença Anemia Falciforme.
A extração de informação será em texto não-estruturado escrito no idioma inglês e
originalmente no formato PDF.
A contextualização é dividida em: Anemia Falciforme e Visão Geral. Na seção 1.1.1 é
apresentado o conceito da Anemia Falciforme visando uma informação geral sobre esta
doença aos leitores. Na seção 1.1.2 é discutido o formato dos dados textuais, assim como as
características de extração de um documento, o objetivo de utilizar a Mineração de Textos no
domínio da Anemia Falciforme e uma visão geral da extração de informação com o auxílio de
um banco de dados.
1.1.1 Anemia Falciforme
A Anemia Falciforme (AF), ou Sickle Cell Anemia (SCA), é uma doença hematológica
(i.e., do sangue) hereditária (i.e., genética) que causa destruição crônica das células vermelhas
do sangue, episódios de intensa dor, susceptibilidade às infecções e em alguns casos, à morte
precoce, afetando principalmente a população negra (CONSELHO MUNICIPAL DE
DEFESA DOS DIREITOS DO NEGRO, 2008). Os genes são herdados dos pais, portanto não
é contagiosa. Diferentemente da anemia comum que tem cura, seja com alimentação que
contenha ferro, vitamina B12 ou vitamina C, a AF não tem cura e tampouco pode ser
amenizada com alimentação. Todavia, é uma doença tratável e é possível o paciente participar
do mercado de trabalho, desde que esteja recebendo tratamento médico adequado e exerça
funções compatíveis com as suas limitações e potencialidades (SILVA, R.; RAMALHO;
CASSORLA, 1993).
11
A AF surgiu nos países do centro-oeste africano, Índia e leste da Ásia, há cerca de 50 a
100 mil anos, entre os períodos paleolítico e mesolítico (GALIZA NETO; PITOMBEIRA,
2003). Paradoxalmente, surgiu como autodefesa do organismo humano para se proteger da
malária que é comum nas regiões de clima quente. Decorrente dos processos migratórios, da
colonização e principalmente da miscigenação racial, a doença, que é passada de pai para
filho, espalhou-se pelo mundo (Figura 2). É mais comum entre pessoas cujos antepassados
são provenientes da África, países do Mediterrâneo (como Grécia, Turquia e Itália), Península
Arábica, Índia e regiões de língua espanhola na América do Sul, América Central e partes do
Caribe (GENETICS HOME REFERENCE, 2007).
Figura 2 – Miscigenação racial.
Fonte: Brasil (2007).
No Brasil, a AF foi introduzida através do tráfico de escravos iniciado em 1550 para
trabalho na indústria da cana-de-açúcar no Nordeste e, posteriormente, para a lavra do ouro e
extração de metais preciosos em Minas Gerais (RUIZ, 2007). Não por acaso, a Bahia é o
estado que concentra a maior incidência da doença hoje no Brasil.
Apesar da AF ser comum na população negra, qualquer pessoa devido à miscigenação
racial pode ter a doença ou simplesmente ser portadora do traço. Segundo dados do Programa
Nacional de Triagem Neonatal (PNTN) (apud MINISTÉRIO DA SAÚDE, 2008), a maior
incidência tanto da AF quanto do traço falciforme encontra-se na Bahia, Rio de Janeiro e
Minas Gerais (Figura 3).
12
Figura 3 – Frequência do gene S nas diferentes regiões do Brasil.
Fonte: Adaptado de Cançado e Jesus (2007).
O sangue é composto pelo plasma e por três tipos de células: plaquetas (ajuda no
coágulo do sangue), glóbulos brancos (células de defesa) e hemácias (glóbulos vermelhos ou
eritrócitos) (Figura 4). Esta última tem no seu interior a proteína hemoglobina, rica em ferro,
responsável pela cor vermelha do sangue e em transportar oxigênio para todo o corpo,
fazendo com que as funções vitais do organismo funcionem perfeitamente.
Figura 4 – Elementos do sangue.
Fonte: Adaptado de Medical Encyclopedia (2008).
O que diferencia a AF da anemia comum é que na primeira a hemoglobina A (comum)
é substituída pela hemoglobina S (formato de foice, daí o nome falciforme, Figura 5). Na
segunda ocorre “somente” a diminuição da hemoglobina no sangue (estima-se que 90% dos
casos (MINISTÉRIO DA SAÚDE, 2004) é devido à falta de ferro, conhecida como Anemia
Ferropriva).
Figura 5 – Hemácia no formato de foice (meia lua).
Fonte: Rodrigues (2008).
13
Por causa do formato em foice, as hemácias têm dificuldade em passar pelas veias,
ocasionando crises intensas de dor que ocorrem frequentemente no abdômen, nos pulmões,
ossos e juntas. Rígidas e pegajosas tendem a formar saliências e ficar presas nos vasos
sanguíneos. Veja na Figura 6 o fluxo de uma hemácia normal (a) e o problema que uma
hemácia falciforme causa na circulação sanguínea (b).
Figura 6 – Hemácias normais (a) e Falciformes (b).
Fonte: Adaptado de National Institute of Health (2008).
As hemácias são produzidas na medula esponjosa presente em ossos grandes do corpo.
Duram em média 120 dias na corrente sanguínea e depois morrem. Na AF o número baixo das
hemácias ocorre porque as células falciformes não duram muito tempo (em média de 10 a 20
dias) (NATIONAL INSTITUTE OF HEALTH, 2008). A medula óssea é responsável por
estar sempre produzindo novas hemácias para substituir as antigas, entretanto a mesma não é
capaz de produzir rapidamente novas hemácias para substituir as que estão morrendo devido à
AF.
Uma pessoa normal (sem o gene da doença) herda do pai e da mãe a hemoglobina A
(homozigoto AA). Para uma pessoa nascer com o gene da AF é necessário herdar a
hemoglobina S tanto do pai quanto da mãe (homozigoto SS). Quem herda de um dos pais a
hemoglobina A e do outro a hemoglobina S nasce com o traço da doença (heterozigoto AS),
ou seja, não é doente tampouco possui sintomas (assintomático), porém pode vir a ter filhos
que sejam. Veja na Figura 7 a probabilidade de um casal com traço falciforme ter filho com
AF (25%, genes SS), a mesma probabilidade de ter filho normal (25%, genes AA) e 50% de
ter filho com o traço (genes AS).
14
Figura 7 – Probabilidade de nascer com Anemia Falciforme.
Fonte: Adaptado de Hemorio (2005).
O indivíduo com AF tem o gene SS característico da doença. Porém, existe um
conjunto de variedades denominado Doença Falciforme ou Sickle Cell Disease (anomalidades
hereditárias das hemoglobinas), por exemplo, indivíduo S com outro tipo de hemoglobina
anormal (e.g., C, D, Talassemia), originando hemoglobinopatias SC, SD, S-Talassemia.
1.1.2 Visão Geral
O formato dos dados textuais pode ser estruturado, semi-estruturado ou não-
estruturado. Segundo os pesquisadores de banco de dados Elmasri e Navathe (2003 apud
CHANG, C. et al., 2006), as informações armazenadas em banco de dados são dados
estruturados, documentos XML são dados semi-estruturados, enquanto as páginas da Web em
formato HTML são não-estruturados. Soderland (1997 apud CHANG, C. et al., 2006)
considera textos (e.g., artigos) que são escritos em língua natural como não-estruturados;
prontuários médicos como semi-estruturados; enquanto páginas HTML como estruturados.
Chia-Hui Chang et al. (2006) utilizam uma nova nomenclatura: textos (e.g., artigos)
sendo não-estruturados; páginas HTML como semi-estruturados; e XML como sendo
estruturados. Neste trabalho consideram-se artigos científicos no formato PDF como dados
não-estruturados, documentos XML como dados semi-estruturados e informações
armazenadas em banco de dados (BD) como dados estruturados (Figura 8).
Figura 8 – Formato dos dados textuais.
A extração de informação de um documento é classificada por Feldman e Sanger
(2007) em quatro tipos de características (features – feature na área de Inteligência Artificial é
conhecida como “atributo” e em Processamento de Língua Natural como “traço”): caracteres,
palavras, termos e conceitos. Cada uma dessas características representa um nível de extração
de informação. O nível mais baixo extrai letras, números, caracteres especiais. O mais alto
extrai informação em relação à semântica, usando conhecimento de domínio como ontologias
15
e bases de conhecimento. Outro nível á a representação em palavras que extrai somente
palavras simples. Termos são simples palavras e frases com múltiplas palavras.
Dos quatro tipos de características listadas anteriormente, termos e conceitos
expressam o nível de valor semântico mais adequado para os propósitos da MT.
Representação em nível de termo pode ser mais facilmente gerada automaticamente de um
texto fonte (através de várias técnicas de extração de termo) do que a representação em nível
de conceito, que frequentemente necessita de algum nível de interação humana (FELDMAN;
SANGER, 2007).
O interesse da Mineração de Textos no domínio da doença Anemia Falciforme
encontra-se em extrair informações de artigos científicos (formato não-estruturado) sobre
paciente, sintoma, fator de risco, tratamento e efeitos (positivos e negativos). Cada uma dessas
características é descrita e exemplificada a seguir:
Paciente: Informações relacionadas à quantidade de pacientes incluídos e
excluídos no tratamento, número de pacientes que obteve sucesso ou insucesso
no tratamento. Exemplo: 4 pacientes desenvolveram síndrome torácica aguda e
em 12 pacientes houve uma melhoria no quadro clínico com a transfusão
sanguínea.
Sintoma: São as características que permitem a identificação da doença.
Exemplos: Síndrome torácica aguda, febre, dactilite (inflamação dos dedos do
pé e da mão).
Fator de Risco: Algumas características que podem piorar o quadro de saúde
do paciente. Essas características não permitem a identificação da doença,
tampouco é decorrente da mesma. Exemplos: Exposição ao frio, mudanças
bruscas de temperaturas, infecções, febre, diarréia, período menstrual,
gravidez, estresse nos adultos, desidratação.
Tratamento: Refere-se à terapia ou o uso de droga por um determinado
período que permite alterações no quadro de saúde do paciente. Exemplos de
terapia: Transplante de medula óssea e transfusão de sangue. Exemplos de
droga: hidroxiureia e ácido fólico.
Efeito: Pode ser negativo ou positivo como resposta ao tratamento (terapia ou
droga). Um efeito negativo (complicação) é um problema ocasionado por
estímulos originados de um tratamento. Uma complicação pode agravar um
sintoma ou levar a um efeito inesperado como exemplo a morte. Não é natural
16
da doença. Exemplo: Um paciente com síndrome torácica aguda (sintoma),
após um período de tratamento teve uma complicação como asma. Efeito
positivo é um benefício que o paciente obtém decorrente do sucesso do uso de
um tratamento. Exemplo: O paciente com sintoma recorrente de epilepsia
diminui a frequência de internação devido a um certo tratamento.
A extração de informação será realizada com o auxílio de um banco de dados que
conterá uma lista de termos predefinidos por especialistas do domínio (equipe do Hemocentro
de Ribeirão Preto). Esta lista, denominada de Repositório de Dicionário de Termos (RDT),
conterá termos identificados manualmente. Entretanto, a partir de heurísticas novos termos
serão adicionados semiautomaticamente, sendo que o especialista decidirá se o termo
candidato é realmente um termo relevante. Na Tabela 1 encontra-se o RDT com alguns
termos.
Tabela 1 – Exemplos de termos de efeitos (positivo e negativo).
Efeitos
Positivo (benefício) Negativo (complicação)
cure acute chest syndrome
decrease the rate of painful events acute lun injury
no adverse events due transfusion vasooclusive crises
decrease of the number of days of hospitalization intracranion hemorrhage
transfusion prevents ACS splenic sequestration
Este trabalho visa extrair termos relacionados a efeitos (positivo e negativo) da doença
Anemia Falciforme, utilizando como fonte de entrada artigos científicos não-estruturados no
formato PDF escritos no idioma inglês.
1.2 Motivação
A doença falciforme afeta milhões de pessoas no mundo inteiro. É a doença
hereditária do sangue mais comum nos Estados Unidos, afetando 70.000 a 80.000 norte-
americanos (GENETICS HOME REFERENCE, 2007). No Brasil também é a doença
hereditária mais comum (ZAGO, 2001).
Dados do Programa Nacional de Triagem Neonatal (apud MINISTÉRIO DA SAÚDE,
2008) mostram que 3.500 crianças nascem com doença falciforme e 200.000 com traço
falciforme todos os anos. A taxa de mortalidade infantil nas crianças sem nenhum tratamento
é de . Dados do Hemocentro do Rio de Janeiro (apud MINISTÉRIO DA SAÚDE, 2008)
apresentam uma redução em torno de quando a atenção ao paciente é integral. Portanto,
17
o tratamento adequado representa papel fundamental na redução da morbidade e mortalidade
desses pacientes.
O grande volume de artigos médicos publicados impossibilita a leitura de todos os
artigos. O NCBI (National Center for Biotechnology Information) é um Instituto Nacional de
Saúde criado em 1988 para desenvolver sistemas de informação para biologia molecular.
Fornece sistemas de recuperação para pesquisar nas bases do PubMed e PubMed Central
(PMC) (http://www.pubmedcentral.nih.gov/).
PubMed, repositório on-line desenvolvido pelo NCBI e National Library of Medicine,
contém mais de 18 milhões de publicações médicas, incluindo registros do MEDLINE e
outros jornais científicos (NATIONAL CENTER FOR BIOTECHNOLOGY
INFORMATION, 2009b). O MEDLINE (http://gateway.nlm.nih.gov), sistema on-line de
busca e análise de literatura médica, é um banco de dados que contém mais de 16 milhões de
referências a artigos de revistas da área de ciências com uma maior concentração em
biomedicina (NATIONAL LIBRARY OF MEDICINE, 2008).
Já o Entrez é um sistema de recuperação de banco de dados integrado do NCBI que
fornece acesso a um conjunto de 35 bases que juntas contêm mais de 350 milhões de registros
(SAYERS et al., 2009). Uma consulta simples realizada na base integrada do Entrez
(NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION, 2009a) com a palavra-
chave Sickle Cell Anemia retornou 15.748 registros do PubMed (citações e resumos), 3.463
do PMC (artigos completos de livre acesso), além de informações de outras bases.
A grande quantidade de informação armazenada nesses bancos de dados demonstra
que existe um crescimento acelerado da produção e armazenamento das informações tanto em
forma de resumos quanto de artigos científicos completos. Analisando essa perspectiva, é
humanamente inviável relacionar casos de sucesso de um artigo com outro. Esses casos
poderiam identificar relacionamento de conteúdos entre artigos, por exemplo: a droga
hidroxiureia, utilizada no tratamento da Anemia Falciforme (SEGAL et al., 2008), foi
utilizada em crianças na faixa etária de 2 a 5 anos e resultou em da redução de
hospitalização, enquanto que em outro estudo realizado com jovens de 18 a 27 anos houve
uma redução considerável nas crises recorrentes de dores em todo o corpo.
O surgimento da Mineração de Textos foi motivado pela necessidade de se descobrir
de forma semiautomática informações e conhecimento (e.g., padrões e anomalias) em textos.
O uso dessa tecnologia permite recuperar informações, extrair dados, resumir documentos,
descobrir padrões, associações e regras, além de realizar análises qualitativas ou quantitativas
em documentos de texto (ARANHA; PASSOS, 2006).
18
O crescimento do armazenamento de dados não-estruturados no domínio biomédico,
propiciou o desenvolvimento de técnicas de MT. Devido à alta percentagem de informação
estar disponível no formato textual e mais especificamente em artigos científicos completos
da doença Anemia Falciforme, surge a oportunidade de minerar esses textos. O objetivo é
reduzir o tempo de encontrar uma informação e aumentar a probabilidade de identificar uma
informação relevante no meio de uma miríade de artigos científicos que, às vezes, em um
processo manual seria exaustivo, senão improvável de encontrar.
1.3 Justificativa
Segundo estimativas da Organização Mundial de Saúde (apud BRASIL, 2009), a cada
ano nascem no Brasil cerca de 2.500 crianças portadoras de Doença Falciforme (dados
inferiores ao PNTN que é de 3.500). Vinte por cento delas não vão atingir cinco anos de
idade, por complicações diretamente relacionadas à doença. Nos Estados Unidos a estimativa
é de 1 a cada 500 norte-americanos descendentes de africano e 1 entre 1.000 a 1.400 norte-
americanos descendentes de hispânico (GENETICS HOME REFERENCE, 2007).
Várias pesquisas vão em direção a amenizar o sofrimento desses pacientes. A droga
hidroxiureia vem sendo utilizada em pacientes com Anemia Falciforme que tem recorrentes
crises de dor ou síndrome torácica aguda desde os primeiros resultados obtidos em adultos por
Charache et al. (1995). Reais benefícios são encontrados em grupos com diferentes faixas
etárias, todavia a eficácia do tratamento com esta droga em longo prazo ainda é incerto,
especialmente em crianças (GULBIS et al., 2005).
Estudo com crianças (CHAAR et al., 2006) constatou que o alelo ecNOS C-786 está
associado a diminuição do risco de síndrome torácica aguda, obtendo resultado diferente de
estudos anteriores que constatou que este alelo está associado ao alto risco de desenvolver a
mesma síndrome em pacientes adultos do sexo feminino.
A hidroxiureia, considerada a droga mais bem sucedida no combate a AF (GULBIS et
al., 2005), é capaz de aumentar as concentrações de hemoglobina fetal que pode diminuir a
gravidade da doença, produzindo melhora do quadro clínico. Os pacientes através do uso
desta droga podem obter os seguintes benefícios (BRASIL, 2002):
Diminuição da frequência dos episódios de dor ou até mesmo ausência de dor;
Aumento da produção de hemoglobina F e aumento discreto da concentração
total de hemoglobina;
Diminuição dos episódios de síndrome torácica aguda, do número de
hospitalizações e do número de transfusões sanguíneas.
19
Vários artigos médicos sobre a AF relatam casos de sucesso com o uso da droga
hidroxiureia (CHARACHE et al., 1995; COVAS et al., 2004; LEFÈVRE et al., 2008) e com
terapia como a transfusão de sangue (STYLES et al., 2007; BADER-MEUNIER et al., 2009).
Contudo, esses artigos são publicados em vários meios de comunicação (American Journal of
Hematology, Blood, British Journal of Haematology, Haematologica, The New England
Journal of Medicine, dentre outros), tendo uma imensa informação que os pesquisadores não
são capazes de processar, seja devido à infinidade de conferências que exige uma busca
exaustiva (o que leva tempo) para encontrar o artigo e mais tempo ainda em lê-los e extrair as
principais informações seja de paciente, sintoma, fator de risco, tratamento ou efeito.
Para auxiliar no processamento dos artigos científicos sobre a AF, a Mineração de
Textos tem um papel fundamental. Com a função de extrair e reconhecer padrões e descobrir
conhecimento em bases textuais (FELDMAN; DAGAN, 1995), a MT auxilia os
pesquisadores com a redução do tempo gasto em processar e identificar informações nos
artigos.
A partir da extração dessas informações em etapas do processo de MT, poderá numa
outra etapa, Mineração de Dados, cruzarem informações extraídas de cada artigo,
identificando relacionamentos de causa/efeito da doença. As informações geradas a partir
desse cruzamento poderão ser tanto quantitativas quanto qualitativas. A seguir exemplos que
cada uma dessas abordagens é capaz de identificar:
Qual o número de artigos que descrevem tratamentos baseados no uso da droga
hidroxiureia em crianças na faixa etária de 5 a 8 anos nos últimos 5 anos?
(Informação Quantitativa).
Em 80% das crianças na faixa etária de 5 a 8 anos, o uso da droga hidroxiureia
diminuiu o tempo médio de internação (Informação Qualitativa).
Como dito anteriormente, a MT atua em dados textuais não-estruturados,
transformando-os em informações estruturadas que podem ser processadas com algoritmos de
MD (Regras de Associação, Extração de Padrões, Regras de Regressão) (HAN; KAMBER,
2006), identificando padrões que seriam humanamente inviáveis de serem realizados com a
imensa quantidade de artigos disponíveis atualmente.
Diversos trabalhos existentes na literatura extraem informação de proteína (MIKA;
ROST, 2004b), interações de proteína (ONO et al., 2001) ou gene e proteína (LEONARD;
COLOMBE; LEVY, 2002). A maioria dessas informações é selecionada de resumos
(abstracts) do MEDLINE. Por mais bem resumido que seja o abstract não é possível escrever
20
em poucas palavras todos os resultados obtidos com os experimentos. Muitas informações
importantes deixam de ser extraídas.
Corney et al. (2004) destacam o benefício em extrair informação em artigos completos
– mais da metade da informação extraída é do corpo do artigo – apesar de algumas
dificuldades em converter artigo no formato PDF para formato de texto e exigir tempo extra
para processamento do texto (a análise realizada em resumo leva de 3 a 5 segundos e em
artigo completo de 6 a 10 minutos, segundo Corney et al. (2004)).
Na Figura 9 é mostrada a densidade de informação sobre nome de gene e proteína em
um artigo completo, sendo a localização e o início e o fim do artigo,
respectivamente. O pico de informação da parte esquerda corresponde ao resumo e o pico no
meio corresponde às seções de discussão e resultado do artigo.
Figura 9 – Densidade de informação em um artigo completo.
Fonte: Adaptado de Corney et al. (2004).
Ainda segundo Corney et al. (2004), a Figura 9 sugere que não apenas algumas seções
devam ser analisadas, mas sim o artigo completo. Schuemie et al. (2004) corroboram com a
importância da extração em artigos completos: há seções que possuem mais informações do
que outras e quanto mais seções pesquisadas mais informação será extraída. Contudo,
Schuemie et al. (2004) ressalvam que leva-se mais tempo para processar e os artigos são mais
difíceis de adquirir devido às proteções de copyright. Apesar dessas dificuldades, há um senso
comum no que diz respeito à relevância dessas informações. Este trabalho tem como desafio
extrair as informações relacionadas à doença Anemia Falciforme de artigos completos.
1.4 Objetivos
Esta pesquisa em nível de mestrado está inserida em um projeto de pesquisa que tem
como objetivo desenvolver um ambiente para analisar os dados da doença Anemia
Falciforme. Este ambiente visa extrair informações de forma semiautomática de um conjunto
21
de artigos científicos sobre a doença e possibilitar a aplicação de algoritmos de Mineração de
Dados para identificar padrões que indicam relacionamentos interessantes e até então
desconhecidos ou para predição de fatos futuros em função de dados do passado. Exemplos de
relacionamentos incluem causa/efeito para essa doença.
1.4.1 Objetivo Geral
O objetivo deste trabalho de pesquisa de mestrado é extrair informações relevantes de
artigos científicos (formato não-estruturado) em inglês, relacionados a efeitos (positivo e
negativo) da doença Anemia Falciforme.
1.4.2 Objetivos Específicos
Utilizando da extração semiautomática, pretende-se proporcionar aos profissionais da
área médica soluções para a doença citada com base em estudos de caso validados por outros
pesquisadores. Também é importante fornecer as informações mais proeminentes dos artigos
sobre Anemia Falciforme a fim de encontrar solução no menor tempo e com maior precisão
(ou ter conhecimento sobre o andamento das pesquisas em nível mundial, ou a aplicação de
um novo medicamento), alcançando os melhores resultados possíveis.
Destacam-se alguns objetivos específicos que são pontuais neste trabalho:
Converter artigos escritos em inglês do formato PDF para documento XML
para ter acesso ao texto em nível de página, parágrafo e sentença para uma
posterior navegação pelos níveis estabelecidos. Para isso está sendo
desenvolvido uma ferramenta chamada de SCAtRanslator;
Desenvolver a ferramenta SCAeXtractor, mais especificamente um módulo de
extração de informação;
Classificar as sentenças em efeitos da Anemia Falciforme utilizando um
classificador de texto;
Extrair informação de efeitos das sentenças classificadas, utilizando regras e
dicionário;
Armazenar as informações extraídas em um banco de dados;
Possibilitar ao especialista do domínio visualizar as sentenças ou os termos da
sentença no artigo original (formato HTML), correspondente as informações
armazenadas no banco de dados;
Fornecer acesso aos dados estruturados para serem processados por algoritmo
de Mineração de Dados.
22
1.5 Organização do Trabalho
Esta proposta de dissertação está organizada em cinco capítulos distribuídos na
seguinte ordem. Capítulo 1 – Introdução: É abordado o contexto onde este trabalho se
encontra, a motivação para a definição do tema, a justificativa da pesquisa e os objetivos
gerais e específicos; Capítulo 2 – Mineração de Textos: É apresentado as áreas de
conhecimento da mineração de textos, quais os tipos mais comumente utilizados para
descoberta de conhecimento textuais e por fim, as etapas do processo de MT; Capítulo 3 –
Extração Automática: É contextualizado o reconhecimento automático de termo na área da
terminologia e quais as abordagens comumente utilizadas para extração de informação;
Capítulo 4 – Trabalhos Correlatos: É discutido trabalhos que extraem informações de textos
não-estruturados utilizando as abordagens de aprendizado de máquina, regras e dicionário
explicadas no capítulo 3; Capítulo 5 – Proposta da Dissertação de Mestrado: É apresentado a
arquitetura do sistema de análise de dados da doença Anemia Falciforme, a metodologia
utilizada para extrair informação em artigos científicos de efeitos relacionados à essa doença,
algumas questões sobre o desenvolvimento do projeto e por fim, o cronograma de atividades.
23
2 MINERAÇÃO DE TEXTOS
Mineração de Textos (MT) (TAN, 1999), também conhecida como Descoberta de
Conhecimento Textual (FELDMAN; DAGAN, 1995) ou Mineração de Dados Textuais
(HEARST, 1999), refere-se ao processo de extrair informações úteis em documentos no
formato textual não-estruturado através da identificação de conhecimento e exploração de
padrões. A MT é vista como uma extensão da Mineração de Dados (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996). A Mineração de Dados procura desvendar
conhecimento de bases de dados estruturadas e extrair padrões e tendências de grandes
volumes de dados, normalmente, de um domínio específico (detalhes em 2.1.5).
Na comunidade biomédica a MT é considerado como um processo de destacar a
informação relevante (seja recuperando ou extraindo) de uma grande coleção de dados
textuais; ajuda os especialistas do domínio a entender a grande quantidade de texto através da
recuperação de informação (seção 2.1.4), extração de informação (seção 2.1.3) e descoberta
de relacionamentos implícitos (seção 2.1.5) (SPASIC et al., 2005).
Marti Hearst (HEARST, 1999; HEARST, 2003) define MT como sendo a descoberta
automática de informação desconhecida a partir de fontes textuais. Hearst destaca a
biociências como área promissora para aplicação de MT (cita o trabalho de Don Swanson
discutido neste capítulo na seção 2.2.5) e interações de proteínas.
Há uma grande quantidade de informação em formato textual tanto disponível em
conteúdo on-line quanto em documentos de empresas. Para que essa informação não-
estruturada seja processada, é necessário usar métodos e algoritmos de pré-processamento
para extrair padrões interessantes. Pré-processamento é uma das etapas do processo de MT
que será apresentado na seção 2.3.
A MT surge como uma tecnologia para processar esses textos seja para sumarizar
(tornar um texto sucinto), categorizar (classificar em classes definidas), agrupar, obter
respostas relacionadas a perguntas (perguntas e respostas) ou simplesmente extrair
informação que pode ser combinada com categorização, por exemplo. Tarefas de sumarizar,
24
categorizar, etc. são utilizadas para descoberta de conhecimento em textos (discutido na seção
2.2).
Este capítulo está dividido da seguinte forma: na seção 2.1, são destacadas as áreas de
conhecimento que estão envolvidas com a Mineração de Textos; em seguida, em 2.2 são
discutidos alguns tipos de descoberta de conhecimento em textos que podem ser utilizadas nas
áreas de conhecimento citadas na seção 2.1; na seção 2.3 são apresentadas as etapas do
processo de mineração; e por fim, em 2.4, são apresentadas as considerações finais.
2.1 Áreas de Conhecimento em Mineração de Textos
A Mineração de Textos é um campo de pesquisa interdisciplinar e segundo Hotho,
Nürnberger e Paass (2005) está relacionada com áreas como: extração de informação,
recuperação de informação, aprendizado de máquina, estatística, processamento de língua
natural e mineração de dados. Esta última é utilizada como área “fim” com o objetivo de
extrair padrões relevantes a partir do cruzamento de informações. As outras são utilizadas
como áreas “meio”, auxiliando no processo de seleção (recuperação de informação) e
extração de informação (aprendizado de máquina e processamento de língua natural).
A seguir é apresentado sucintamente cada uma dessas áreas que contribui com a
mineração textual. Essas áreas possuem técnicas que auxiliam em uma ou mais etapas do
processo de Mineração de Textos explicado em 2.3.
2.1.1 Processamento de Língua Natural
O termo Processamento de Língua Natural (PLN) ou Linguística Computacional é
normalmente usado para descrever a função de um sistema de computador no qual analisa e
sintetiza a língua falada ou escrita (JACKSON; MOULINIER, 2002). Tem como propósito
ser apoiado por um sistema computadorizado que compreende a língua natural assim como
um ser humano. A palavra “Natural” significa a distinção da escrita e fala humana das línguas
formais como matemática ou lógica.
Há um grande interesse em PLN a fim de encontrar informações relevantes e
“escondidas” nas diversas fontes que se encontram em formato textual não-estruturado na
Internet e nas Intranets corporativas. PLN utiliza de técnicas estatísticas para interpretar e
determinar o significado de partes do texto (JACKSON; MOULINIER, 2002).
PLN tem o intuito de analisar e representar naturalmente a ocorrência de textos em um
ou mais níveis de análise linguística. Os níveis de análise linguística são divididos em seis
categorias (JURAFSKY; MARTIN, 2000): Fonética e Fonológica: estudo dos sons
linguísticos; Morfológica: estudo do significado das palavras, incluindo os prefixos, sufixos e
25
raízes; Sintática: estudo das relações estruturais entre as palavras. Análise das palavras em
uma sentença, a fim de descobrir a estrutura gramatical da mesma; Semântica: estudo do
significado. Determinar os possíveis significados de uma sentença, incluindo desambiguação
das palavras no contexto; Pragmática: estudo da compreensão do uso da língua em situações
que requerem conhecimentos do mundo; Discursiva: estudo das unidades linguísticas maiores
do que uma única expressão (discurso), interpretando a estrutura e o significado do texto.
Segundo Spasic et al. (2005), o primeiro passo para o processamento de texto
automático é a toquenização que identifica as unidades básicas do texto conhecidas como
tokens, utilizando delimitadores explícitos como espaço em branco ou pontuação. Após a
toquenização pode ser realizado o processamento léxico ou sintático, a saber:
Léxico, inclui: lematização, processo que substitui a palavra flexionada pela
forma básica sem número e gênero ; stemming,
processo que reduz a palavra ao seu radical ;
etiquetador gramatical - - - POS identifica a categoria
gramatical de cada palavra do texto utilizando a marcação de etiquetas.
Geralmente é morfológico (identifica substantivo, adjetivo, artigo) ou
morfossintático (identifica as funções sintáticas como sujeito, predicado,
aposto).
Sintático envolve a análise da estrutura sintática de uma sentença, inclui:
shallow parser e deep parser. A primeira apenas identifica os principais
elementos gramaticais em uma sentença, por exemplo, substantivo e verbo;
enquanto que a segunda gera representação completa da estrutura gramatical de
uma sentença.
Stavrianou, Andritsos e Nicoloyannis (2007) discutem em um survey questões
semânticas relacionadas à PLN, ressaltando a importância de PLN na MT. Algumas
conclusões deste trabalho podem ser destacadas:
Esclarecer o objetivo da mineração antes da análise dos dados, pois cada tarefa
tem exigências diferentes;
Delimitar o escopo do texto (resumos, artigos ou coleções de artigos), pois
certas decisões e abordagens podem não ser apropriadas para um determinado
tipo de texto devido ao fato da distribuição de termo variar;
Analisar o texto para encontrar a técnica de PLN que pode ser utilizada. Em
geral, deve-se pensar cuidadosamente antes de remover as stop words (palavras
26
comuns no texto como preposições e artigos) ou aplicar técnicas de
lematização no texto.
2.1.2 Aprendizado de Máquina
Aprendizado de Máquina (AM) é uma área da Inteligência Artificial que lida com
problemas de aprendizado computacional a fim de adquirir conhecimento de forma
automática. Um sistema de aprendizado tem a função de analisar informações e generalizá-
las, para a extração de novos conhecimentos. Para isso usa-se um programa de computador
para automatizar o aprendizado (MONARD; BARANAUSKAS, 2003).
O aprendizado utiliza do princípio da indução (inferência lógica) com o intuito de
obter conclusões genéricas a partir de um conjunto de exemplos. Um conceito é aprendido
efetuando-se inferência indutiva sobre os exemplos apresentados. As hipóteses geradas
através dessa inferência podem ou não preservar a verdade.
Para a indução derivar conhecimento novo representativo, os exemplos das classes têm
que estar bem-definidos e ter uma quantidade suficiente de exemplos, obtendo assim
hipóteses úteis para um determinado tipo de problema. Quanto mais exemplos relevantes
selecionados para treinamento no indutor, mais bem classificado será o novo conjunto de
dados. O objetivo do algoritmo de indução é construir um classificador que possa determinar
a classe que um exemplo não rotulado pertence. É possível rotular um novo exemplo devido à
generalização.
O aprendizado indutivo pode ser dividido em supervisionado (AS) e não-
supervisionado (ANS), Figura 10. O AS é utilizado para classificação dos exemplos em
classes predefinidas: resolve problemas preditivos. O ANS é utilizado para agrupamento,
agrupando exemplos semelhantes: resolve problemas descritivos. Classificação e
agrupamento (apresentados em 2.2.3 e 2.2.4) são, respectivamente, exemplos desses dois tipos
de aprendizado.
Figura 10 – Hierarquia do aprendizado.
Fonte: Adaptado de Monard e Baranauskas (2003).
27
Monard e Baranauskas (2003) classificam AM em alguns paradigmas, a saber:
Simbólico, representações simbólicas de um problema através da análise de exemplos e
contra-exemplos como expressão lógica, árvore de decisão, regras ou rede semântica.
Exemplo: Algoritmos de árvore de decisão como ID3, C4.5; Estatístico, utiliza modelos
estatísticos para encontrar uma aproximação do conceito induzido. Exemplo: Support Vector
Machines (SVM) e aprendizado Bayesiano; Baseado em Exemplos, classifica um novo
exemplo com base em uma classificação similar conhecida. Exemplo: Raciocínio baseado em
caso e método do -vizinhos mais próximos ( -nearest neighbor, kNN); Conexionista,
inspirada no modelo biológico do sistema nervoso. Exemplo: Redes Neurais; e Evolutivo,
modelo biológico de aprendizado. Exemplo: Analogia com a teoria de Darwin.
Alguns métodos típicos de classificação têm sido usados de forma bem-sucedida na
classificação textual: kNN, métodos de seleção de características, SVM, classificação
Bayesiana e baseada em associação (HAN; KAMBER, 2006). Os algoritmos de aprendizado
supervisionado C4.5, SVM, kNN, Naive Bayes foram escolhidos entre os dez algoritmos mais
influentes na área de mineração de dados (WU, X. et al., 2007).
O SVM pode ser utilizado para classificação e trabalha bem em espaço de alta
dimensionalidade, atuando em problemas de duas classes, por exemplo, identificação de
genes em pacientes normais e com câncer (GUYON et al., 2002). Naive Bayes é fácil de
interpretar e frequentemente funciona surpreendentemente bem; pode não ser o melhor
classificador em alguma aplicação específica, mas normalmente é robusto. Xindong Wu et al.
(2007) descrevem mais detalhes desses algoritmos.
Em 3.2.2 será discutido mais sobre Aprendizado de Máquina (uma das técnicas
utilizada no desenvolvimento deste trabalho).
2.1.3 Extração de Informação
Extração de Informação (EI) preocupa-se em localizar partes específicas em
documentos em língua natural, extraindo informações estruturadas a partir de textos não-
estruturados. EI pode ser descrita como (ANANIADOU; MCNAUGHT, 2006): Extração de
fatos essenciais de tipos predefinidos de um documento em língua natural; Representação de
cada fato como um modelo (template) cujo slots são preenchidos com base no que é
encontrado no texto.
Em geral, sistemas de EI são úteis: se a informação a ser extraída é encontrada de
forma explícita e nenhuma conclusão é necessária; quando um pequeno número de modelos é
28
suficiente para resumir as partes relevantes do documento; e a informação desejada é expressa
localmente no texto (FELDMAN; SANGER, 2007).
Ainda segundo Feldman e Sanger (2007), técnicas de EI podem ser parte da tarefa de
Mineração de Textos para facilitar a extração do conhecimento. Contudo, o domínio deve ter
um padrão que se encaixa num modelo. Os resultados da EI, informações estruturadas,
geralmente são armazenados em banco de dados para posteriormente serem utilizados
algoritmos de Mineração de Dados para identificar padrões interessantes (ver 2.1.5).
Existem cinco tarefas de EI como mostrados na Tabela 2. Todos os tipos são
fracamente dependentes de domínio como exemplificado por Cunningham (2006): mudar o
domínio a ser processado de notícias financeiras para outro tipo de notícias implica algumas
alterações no sistema; mudar o assunto de notícias para artigos científicos envolve grandes
mudanças.
Tabela 2 – Cinco tarefas de extração de informação.
Fonte: McNaught e Black (2006).
Tarefa Descrição
Entidade Nomeada Extrai nome, lugares, etc.
Coreferência Identifica relações entre entidades
Template Element Extrai atributos descritivos de entidade nomeada
Template Relation Extrai relacionamento específico de entidade nomeada (simples fatos)
Scenario Template Extrai eventos. Um ou mais slots são preenchidos com template element ou
template relation para cada tipo de evento extraído
No domínio biomédico a tarefa mais utilizada é a Entidade Nomeada (PARK; KIM,
2006). Reconhecimento de Entidade Nomeada (NER) identifica referências para tipos de
objetos particulares, como nome de pessoas, empresas e localizações. NER é uma das áreas de
extração de informação mais estudadas, não apenas em biomedicina, mas também em outras
áreas (ANANIADOU; MCNAUGHT, 2006).
O termo Entidade Nomeada foi cunhado na sexta conferência de extração de
informação conhecida como Message Understanding Conference (MUC) (GRISHMAN;
SUNDHEIM, 1996 apud NADEAU; SEKINE, 2007). A conferência surgiu pela necessidade
de padronizar a avaliação dos sistemas e de acompanhar o desenvolvimento dos mesmos ao
longo do tempo (HIRSCHMAN, 1998).
Ao todo são sete MUCs que surgiram ao longo de 1987 a 1998. O foco inicial foi em
extração de evento (Scenario Template). Novas tarefas intermediárias foram definidas nas
conferências MUC-6 (1995) e MUC-7 (1998), incluindo tarefas de identificação de Entidade
Nomeada, Template Element e Template Relation (HIRSCHMAN; MORGAN; YEH, 2002).
29
Exemplos detalhados de cada um dos tipos de EI são descritos por Cunningham
(2006) e McNaught e Black (2006). Nadeau e Sekine (2007) apresentam um survey dos
últimos 15 anos (1991 a 2006) sobre classificação e reconhecimento de entidade nomeada e
discutem as abordagens baseada em regra e aprendizado de máquina que geralmente são
utilizadas em sistemas de extração de informação.
Os resultados da EI, informações estruturadas, geralmente são armazenados em banco
de dados para posteriormente serem utilizados em algoritmos de Mineração de Dados para
identificar padrões interessantes (discutido em 2.1.5).
2.1.4 Recuperação de Informação
Segundo Lancaster (1968 apud VAN RIJSBERGEN, 1979), um sistema de
Recuperação de Informação (RI) não informa ao usuário sobre o assunto que o mesmo deseja
encontrar, mas limita-se a localizar os documentos relativos à consulta do usuário e informar
sobre a existência ou não da informação desejada.
RI é diferente de EI. Esta última extrai informações relevantes não-estruturadas dos
documentos. Uma aplicação de EI analisa os textos não-estruturados e apresenta as
informações específicas no formato estruturado predefinido como explicado em 2.1.3. Um
sistema de RI recupera documentos relevantes baseado em uma consulta do usuário e baseia-
se em busca por palavras-chave ou busca por similaridade.
O exemplo mais conhecido de um sistema de RI é o buscador Google que seleciona os
documentos disponíveis na Web de acordo com a consulta definida pelo usuário. Segundo
Jensen, Saric e Bork (2006), o PubMed é o sistema de RI mais conhecido no domínio
biomédico (informação sobre o PubMed, na seção 1.2). Este último é um sistema ad hoc que
usa duas metodologias de RI: modelo booleano e de vetor.
Outro exemplo de sistema de RI é o Pharmspresso (http://pharmspresso.stanford.edu/)
que extrai e recupera informação de artigos científicos completos. O objetivo da ferramenta é
recuperar artigos (coleção de 1.025 artigos no formato PDF) que contenham sentenças de
acordo com a palavra-chave e categoria definidas pelo usuário (GARTEN; ALTMAN, 2009).
Uma lista de sistemas de RI e EI está disponível em
http://zope.bioinfo.cnio.es/bionlp_tools/all_bionlp_tools com as informações sobre resumo do
sistema, URL (Uniform Resource Locator) para a ferramenta e referência do trabalho.
Para processar grandes coleções de documento, a Mineração de Textos exige um
grande poder computacional e tempo para analisar os textos. A RI pode contribuir
restringindo os documentos com base na informação desejada do usuário, reduzindo o número
30
de documentos que serão analisados e consequentemente diminuindo o tempo de espera. Por
exemplo, Hu et al. (2005) extraem informação sobre fosforilação de resumos do MEDLINE.
Para isso, numa primeira fase utiliza-se do sistema de RI para selecionar somente artigos
relacionados à fosforilação, delimitando o domínio de extração.
No contexto deste trabalho de pesquisa em nível de mestrado, a Recuperação de
Informação não será utilizada, pois os artigos no formato em PDF sobre a doença Anemia
Falciforme serão pré-selecionados pelo especialista do domínio (equipe médica).
2.1.5 Mineração de Dados
Mineração de Dados (MD) (HAN; KAMBER, 2006) faz parte do processo de
Descoberta de Conhecimento em Banco de Dados (KDD) e às vezes os dois termos são
usados de maneira indistinta (LUO, 2008). O processo de KDD pode consistir dos seguintes
passos: seleção dos dados, pré-processamento (limpeza dos dados), transformação dos dados,
busca por padrão (mineração de dados) e interpretação e avaliação dos dados (FAYYAD;
PIATETSKY-SHAPIRO; SMYTH, 1996).
O objetivo do processo de KDD é a aplicação de métodos específicos de mineração de
dados para extração e descoberta de padrão. Contudo, o KDD utiliza-se de técnicas de
aprendizado de máquina e estatística para avaliar e interpretar os padrões minerados e
determinar quais padrões podem ser considerados como conhecimento novo.
Uma área que pode contribuir com o processo de KDD é o data warehousing
(KIMBALL; ROSS, 2002) que, segundo Fayyad, Piatetsky-Shapiro e Smyth (1996), ajuda
com o armazenamento de grandes volumes de dados, com a limpeza e com o acesso aos
dados. O principal objetivo do data warehousing é fornecer suporte à decisão aos gerentes de
negócios.
2.1.5.1 Mineração de Dados x Mineração de Textos
Diferentemente da Mineração de Textos que utiliza técnicas de pré-processamento
para identificar e extrair características representativas de documentos em formato não-
estruturado, a MD (MHAMDI; ELLOUMI, 2008) aplica algoritmos de descoberta de padrões
em dados estruturados em um banco de dados. Segundo Feldman e Sanger (2007), ambas
atuam na fase de pré-processamento. A primeira utiliza-se de técnicas de extração para coletar
informação mais representativa dos dados não-estruturados. Enquanto que a segunda enfoca
na normalização dos dados, criando grande número de junções de tabela.
A Mineração de Textos é uma área recente que pode ser utilizada como pré-
processamento para a Mineração de Dados (etapas do processo de MT são apresentadas em
31
2.3). A seguir são apresentados três trabalhos que utilizam técnicas de MT como pré-
processamento a fim de estruturar os dados e, por conseguinte o resultado é utilizado como
entrada para algoritmos de MD encontrarem relacionamentos interessantes e conhecimento
novo.
Tan (1999) apresenta um framework constituído de dois componentes: Text refining
que transforma texto não-estruturado num formato intermediário; e Knowlegde distillation
que encontra padrões (agrupamento, categorização) e conhecimento (descoberta de previsão e
associação) a partir do formato intermediário gerado pela MT.
Karanikas, Tjortjis e Theodoulidis (2000) propuseram uma abordagem para extração
de informação composto de dois componentes: Text Analysis e Data Mining. O primeiro
converte dados semi-estruturados (documentos do domínio financeiro) para dados
estruturados que são armazenados em um banco de dados. O segundo aplica técnicas de
mineração de dados nos dados estruturados para classificar documentos por categorias e para
descoberta de padrão útil.
Um trabalho mais recente (KANYA; GEETHA, 2007) apresenta uma abordagem de
Mineração de Textos para extrair informação de grupos de notícias relacionada a anúncio de
emprego. A partir da informação estruturada, dois algoritmos de MD (RIPPER e APRIORI)
são utilizados para descobrir regras interessantes.
Esses trabalhos mostram a importância da Mineração de Dados a fim de descobrir
padrões a partir do resultado do processamento textual realizado pela Mineração de Textos,
sendo a MT a solução ideal para transformar conhecimento não-estruturado em dados
estruturados para serem armazenados no banco de dados (REBHOLZ-SCHUHMANN;
KIRSCH; COUTO, 2005).
2.2 Descoberta de Conhecimento em Textos
Descoberta de Conhecimento em Textos (ou simplesmente KDT) visa explorar e
descobrir padrões em textos. O termo KDT foi cunhado por Feldman e Dagan (1995) como
sinônimo para Mineração de Textos.
Zweigenbaum et al. (2007) descrevem três tarefas de KDT (perguntas e respostas,
sumarização e geração de hipótese) que podem ser utilizadas como uma tarefa para extrair
informação. Fan et al. (2006) descrevem mais cinco tarefas de KDT além das três citadas
anteriormente: extração de informação, categorização, agrupamento, visualização de
informação e rastreamento de informação.
32
Nota-se que Zweigenbaum et al. (2007) consideram as três tarefas como parte da
extração de informação; Fan et al. (2006) incluem a extração de informação como uma tarefa
de KDT. Neste trabalho considera-se extração de informação (explicada em 2.1.3) como uma
área de conhecimento abrangente no contexto da Mineração de Textos e por isso, não será
explicada nesta seção.
A seguir são apresentadas algumas dessas tarefas que podem ser utilizadas para
descoberta de padrão em textos: perguntas e respostas, sumarização, categorização,
agrupamento e geração de hipótese. Esta última tarefa é utilizada em referência ao trabalho de
Don R. Swanson (seção 2.2.5) e é sinônimo para descoberta baseada na literatura e ligação de
conceito. Neste trabalho, em particular, é adotado geração de hipótese.
2.2.1 Perguntas e Respostas
Mollá e Vicedo (2007) definem Perguntas e Respostas (tradução do inglês Question
Answering - QA) como uma tarefa onde é possível um computador responder perguntas
arbitrárias formuladas em língua natural. Pesquisa em QA está sendo desenvolvida a partir de
duas diferentes perspectivas científicas: Inteligência Artificial e Recuperação de Informação.
Diferentemente de retornar uma lista de documentos a partir de grandes coleções de
texto (objetivo da Recuperação de Informação discutida em 2.1.4), QA tenta fornecer curtas e
específicas respostas para perguntas, disponibilizando informações de apoio relacionadas à
fonte original do documento, caso o usuário queira verificar a origem da informação
(ZWEIGENBAUM et al., 2007).
Sistemas de QA são especialmente úteis em situações em que o usuário precisa
conhecer uma informação específica, por exemplo, “Qual a quantidade anual de crianças
brasileiras que nascem com Anemia Falciforme?” (resposta encontra-se no primeiro parágrafo
da seção 1.3). Geralmente deseja-se obter estas informações em tempo hábil sem perder muito
tempo pesquisando.
Inicialmente sistemas de QA foram desenvolvidos para aplicações genéricas e mais
recentemente em domínios restritos (ZWEIGENBAUM et al., 2007). Mollá e Vicedo (2007)
descrevem informações sobre QA em domínio restrito e apresentam uma lista de sistemas de
Perguntas e Respostas como JAVELIN, QUETAL, AQUA e START.
START (http://start.csail.mit.edu/) é um exemplo de sistema de QA desenvolvido por
Katz, Lin e Felshin (2002) que tenta fornecer respostas precisas a perguntas formuladas pelo
usuário em inglês. O sistema pode responder milhões de perguntas sobre lugares (cidades,
países, meteorologia, mapas, dados demográficos, sistemas políticos e econômicos), filmes
33
(títulos, atores, diretores), pessoas (datas de nascimento, biografias) e definições de
dicionário. Exemplo de uma pergunta respondida é: “Qual o país da América do Sul que tem a
maior população?”. Entretanto, não há resposta para a pergunta: “Qual o país da América do
Sul que tem o melhor futebol?”
Outro exemplo é o MedQA (http://monkey.ims.uwm.edu:8080/MedQA/) que analisa
automaticamente um grande número de documentos eletrônicos para gerar respostas curtas e
coerentes. Este sistema fornece uma alternativa prática permitindo ao médico buscar
definições de informações médicas de forma eficiente. Exemplo de pergunta: “O que é
Anemia Falciforme?”. O resultado foi obtido por volta de 20 segundos e retornou 200
definições pontuadas por relevância e classificadas em grupos. Os bons resultados alcançados
em comparação com o Google em tempo de resposta e simplicidade mostram que o MedQA
pode ser útil para pesquisadores na área médica (YU et al., 2007).
2.2.2 Sumarização
O objetivo da sumarização de texto automático é identificar as informações
importantes de um documento e apresentá-las de forma sucinta e coerente. Diferentemente de
sistemas de EI que geralmente tem como entrada (para processamento) sentenças, em
sistemas de sumarização a entrada é resumos, artigos completos ou coleção de documentos. O
resultado desses sistemas também difere: no primeiro são geradas informações estruturadas,
enquanto no segundo a informação representa uma síntese do documento original
(ZWEIGENBAUM et al., 2007).
Sumarização pode ajudar usuários a encontrar rapidamente os pontos principais de um
documento. Radev, Hovy e McKeown (2002) definem um sumário como um texto que é
produzido de um ou mais textos que expressa informação essencial dos textos originais e não
é maior do que a metade desses e geralmente é menos representativo do que os mesmos; o
objetivo principal é apresentar um resumo das principais ideias de um documento.
Segundo Fan et al. (2006), extrair frases importantes considerando o peso de uma
expressão, por exemplo, “em suma” é uma estratégia amplamente utilizada. Outra estratégia é
utilizar categorização (ver 2.2.3) na sumarização de documento para classificar o conteúdo do
documento em tópicos. Além dessas estratégias, é possível o usuário definir o percentual a ser
extraído do texto.
Os sistemas de sumarização variam dependendo da tarefa a ser realizada. Afantenos,
Karkaletsis e Stamatopoulos (2005) discutem alguns dos fatores que se devem pensar quando
intenciona gerar sumários: tipos de entradas de documentos (um ou mais documentos,
34
monolíngue ou multilíngue, texto ou multimídia como imagem e vídeo); propósito do sumário
(informativo, indicativo ou crítico; domínio específico ou genérico); e possíveis maneiras de
apresentação do sumário (extrato ou resumo).
Um exemplo de um gerador de sumários automático é o desenvolvido por Pardo
(2002) cujo objetivo é a implementação de um modelo de discurso com enfoque no
planejamento textual denominado DMSumm
(http://www.icmc.usp.br/~taspardo/DMSumm.htm). Outro é o GistSumm
(http://www.icmc.usp.br/~taspardo/GistSumm.htm) baseado em um novo método de extração
que tenta identificar a principal ideia do texto para gerar o sumário (PARDO; RINO; NUNES,
2003).
Exemplo na literatura biomédica que produz sumários automáticos é o trabalho
desenvolvido por Ling et al. (2006) que gera sumários sobre informações de genes. A geração
de sumários proposta por Ling et al. (2006) é dividida em duas fases: a primeira usa a RI para
recuperar artigos relevantes; a segunda, por meio da EI extrai sentenças mais informativas.
Portanto, o sumário é gerado a partir da seleção das sentenças mais significativas.
2.2.3 Categorização
Como explicado em 2.1.2, a categorização é uma tarefa de aprendizado
supervisionado. A categorização de documento, também conhecida como classificação, é uma
tarefa importante na Mineração de Textos. Segundo Ikonomakis, Kotsiantis e Tampakas
(2005), classificação de texto desempenha papel importante na extração de informação,
sumarização, busca de texto e perguntas e respostas. Na comunidade científica a abordagem
dominante para categorização é baseada em técnicas de aprendizado de máquina
(SEBASTIANI, 2002).
Classificação de texto é a tarefa de classificar um documento em categorias
predefinidas. O processo de classificação é apresentado de forma geral na Figura 11. Um
conjunto de documentos pré-classificados em categorias é considerado para treinamento (a).
Este é analisado a fim de derivar um esquema de classificação (b). Esse esquema muitas
vezes precisa ser refinado em um processo de teste (não mostrado na figura) para validar o
aprendizado. Assim, o esquema de classificação validado pode ser utilizado para a
classificação de outros documentos (c), classificando o documento (d) nas categorias
definidas anteriormente (a).
35
Figura 11 – Categorização de documentos.
Fonte: Adaptado de Dörre, Gerstl e Seiffert (1999).
Precisão, revocação e acurácia (Equações (3) (4) e (8) em 2.3.1.1) são medidas
comumente utilizadas para avaliar um classificador (IKONOMAKIS; KOTSIANTIS;
TAMPAKAS, 2005).
2.2.4 Agrupamento
Como explicado em 2.1.2, agrupamento é uma tarefa de aprendizado não-
supervisionado. O processo de agrupamento é apresentado de forma geral na Figura 12.
Diferentemente da categorização, o agrupamento irá agrupar os documentos (a) sem o
conhecimento de nenhuma categoria pré-classificada, separando os grupos com base na
similaridade dos dados (b).
Figura 12 – Agrupamento de documentos.
Fonte: Adaptado de Dörre, Gerstl e Seiffert (1999).
36
Lida com problema que consiste em grande parte em analisar os dados de entrada e
sugerir um grupo, de acordo com similaridades observadas nos dados. É extremamente útil
quando não se tem o conhecimento prévio do domínio.
2.2.5 Geração de Hipótese
Área de conhecimento que está embasada na teoria de Don R. Swanson (1986) –
professor emérito da Universidade de Chicago desde 1996 – cujo objetivo principal é a
descoberta de conhecimentos escondidos em diversos documentos que possam ter
informações separadas, mas complementares (SWANSON, 1991). Descoberta baseada na
literatura é outro termo utilizado para associar ao trabalho de Swanson (ZWEIGENBAUM et
al., 2007).
A ideia é encontrar relacionamentos inesperados que podem gerar hipóteses para
serem investigadas e assim, gerar conhecimento novo. Essas hipóteses são geradas a partir do
modelo de descoberta (SWANSON; SMALHEISER, 1997), que parte do princípio
que há um relacionamento conhecido entre e e um separado, mas conhecido entre e .
Esse relacionamento implica em um conhecimento não-descoberto entre e (hipótese)?
Por exemplo, o azeite de peixe contém um ácido Eicosapentaenoic que evita a
viscosidade do sangue . Sabe-se que o azeite controla e diminui as dores causadas pela
síndrome de Raynaud (SWANSON, 1986). Hipótese: a viscosidade do sangue
influencia no controle da doença de Raynaud (Figura 13)? Outros trabalhos foram
desenvolvidos para demonstrar a viabilidade dessa ideia, como Swanson (1988, 1990 apud
BEKHUIS, 2006) e Smalheiser e Bookstein (2001 apud BEKHUIS, 2006).
Figura 13 – Modelo de descoberta A-B-C.
A MT fornece uma abordagem para automatizar a metodologia de geração de
hipótese. Nesse sentido vários trabalhos foram desenvolvidos no intuito de validar a proposta
(WEEBER et al., 2000; BLAKE; PRATT, 2002; WEEBER et al., 2003; SRINIVASAN,
2004; HRISTOVSKI et al., 2006; SEKI; MOSTAFA, 2007). O resumo do legado de Swanson
pode ser encontrado em Bekhuis (2006) que destaca que é uma área que está sendo explorada.
37
2.3 Etapas do Processo de Mineração de Textos
Geralmente o processo de Mineração de Textos é dividido em quatro etapas
(IMAMURA, 2001; MARTINS, 2003): coleta de documentos, pré-processamento, extração
de padrões, e análise e avaliação dos resultados. Na coleta de documentos automática utiliza-
se de ferramentas para recuperar informação e auxiliar o usuário a encontrar a informação que
deseja mais rapidamente; após recuperar os documentos textuais, é realizado um pré-
processamento para estruturar os mesmos e em seguida extrair informações relevantes; tendo
os dados armazenados, por exemplo, em um banco de dados, padrões podem ser extraídos a
fim de encontrar informações úteis; por último, deseja-se avaliar o resultado gerado a partir
dos passos anteriores.
Apesar dessas quatro etapas, há algumas variações do processo de MT na literatura
como em Ebecken, Lopes e Costa (2003), Mathiak e Eckstein (2004), Fan et al. (2006),
Stavrianou, Andritsos e Nicoloyannis (2007), Feldman e Sanger (2007) e Aranha (2007). A
seguir é resumida cada uma das quatro etapas conforme mostrada na Figura 14.
Figura 14 – Processo de Mineração de Textos em quatro etapas.
Coleta de Documentos: A primeira fase do processo de MT é a localização dos
documentos que serão utilizados nas fases posteriores. Um dos problemas para coletar esses
documentos é descobrir onde os dados estão armazenados. Existem vários locais onde essas
informações possam ser encontradas como biblioteca em documentos impressos ou mídias
digitais, computador em arquivos armazenados no disco rígido, e de forma geral e abrangente,
na Internet. Esta última é um repositório de uma infinidade de documentos espalhados pela
rede. Para auxiliar na coleta de documentos, existem vários motores de busca (search
engines). Estes motores são sistemas computacionais criados para localizar informação a
partir de palavras-chave e tem como objetivo auxiliar a encontrar uma informação. O mais
conhecido desses motores de busca é o Google. No domínio biomédico encontram-se vários
desses motores que auxiliam os pesquisadores a encontrar um artigo de forma rápida e precisa
como o Entrez (NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION, 2009a),
38
cujo repositório armazena 350 milhões de registros correspondentes a 35 diferentes bases,
incluindo o PubMed e PubMed Central.
Pré-processamento: O principal objetivo da etapa de pré-processamento de textos,
segundo Aranha (2007), é estruturar os dados para serem submetidos a algum algoritmo de
indexação ou Mineração de Dados. Ainda segundo Aranha (2007), pré-processamento
normalmente significa dividir o texto em palavras (toquenizar), aplicar técnicas de stemming,
remover as stop words e classificar as palavras segundo a classe gramatical (técnicas de PLN
discutidas em 2.1.1). Como discutido em 2.1.1, Stavrianou, Andritsos e Nicoloyannis (2007)
aconselham analisar o texto antes de, por exemplo, remover as stop words ou aplicar técnicas
de lematização no texto, pois cada problema tem necessidades diferentes. Portanto, uma
técnica que serve para uma aplicação pode não servir para outra.
Dois trabalhos encontrados na literatura atuam na fase de pré-processamento: Imamura
(2001) e Aranha (2007). O primeiro projeta e constrói um módulo de pré-processamento de
texto em português, o qual faz parte do projeto Discover. O segundo apresenta um novo
modelo de pré-processamento para minerar textos em português, utilizando técnicas de
inteligência computacional. Segundo Carrilho Junior (2007), pré-processar textos é a fase
mais oneroso do processo de MT, uma vez que não existe somente uma técnica que possa ser
aplicada para, por exemplo, extrair informação de proteína no domínio biomédico (algumas
abordagens serão explicadas no capítulo 3).
Extração de Padrões: Após os documentos serem estruturados adequadamente,
técnicas de extração de conhecimento podem ser utilizadas para identificar padrões e
tendências nos dados. Algoritmos de Mineração de Dados são desenvolvidos para encontrar
esses padrões. Segundo Aranha (2007), esses algoritmos são provenientes de diversas áreas de
conhecimento como: aprendizado de máquina, estatística, redes neurais e banco de dados.
Análise e Avaliação dos Resultados: No final do processo utiliza-se de métricas
(discutidas em 2.3.1) para avaliar se o resultado gerado a partir dos passos anteriores está
adequado. Nota-se que essas medidas também servem para validar cada um dos passos
anteriores individualmente: na coleta de documentos pode-se avaliar a qualidade da
recuperação da informação; no pré-processamento, avaliar a qualidade da extração de
informação e ainda medir o quão bem definida está a tarefa de extração realizada por
humanos; e na extração de padrões, avaliar o quão confiável sãos os padrões identificados.
Cada uma dessas etapas é discutida detalhadamente em trabalhos recentes como
Carrilho Junior (2007) e Aranha (2007). Neste trabalho de pesquisa em nível de mestrado é
proposto uma metodologia para extrair informação que atua na fase de pré-processamento em
39
textos em inglês. Na seção 2.3.1 são explicadas algumas medidas que serão utilizadas nessa
metodologia (explicada no capítulo 5) para avaliar o resultado da extração de informação.
2.3.1 Métricas de Avaliação
A seguir são explicadas duas métricas de avaliação que se pode utilizar para avaliar e
analisar os resultados gerados a partir da Mineração de Textos: medida de desempenho e
medida de concordância. Em 2.3.1.1 serão apresentadas as medida de desempenho que são
comumente utilizadas para avaliar os sistemas. Em seguida, 2.3.1.2, é apresentada a medida
de concordância que serve para identificar o quão fácil uma determinada tarefa é
realizada pelos seres humanos.
2.3.1.1 Medidas de Desempenho
Precisão e revocação são medidas amplamente utilizadas para avaliar a qualidade dos
resultados em diversas áreas do conhecimento. Precisão é uma medida de fidelidade,
enquanto a revocação (conhecida também como cobertura ou sensibilidade) é uma medida de
completude.
As medidas de precisão e revocação são medidas padrão da Recuperação de
Informação (RI), Cleverdon (1966 apud SILVA, P., 2006). As mesmas são utilizadas para
contribuir com a avaliação de sistemas de RI que tem o objetivo de recuperar documentos
relevantes a partir da consulta de um usuário, porém diversas outras áreas, como Extração de
Informação e Inteligência Artificial (IA) incluindo Aprendizado de Máquina e Processamento
de Língua Natural, utilizam dessas medidas para avaliação.
Em seguida são explicadas a precisão e revocação sob o ponto de vista da RI e IA
além de outras medidas e os conceitos de falso positivo e falso negativo.
2.3.1.1.1 Precisão e Revocação no contexto da Recuperação de Informação
A Figura 15 representa o conjunto de informações de uma coleção de documentos
sobre complicações da Anemia Falciforme, discriminadas em informações relevantes
(esquerda/verde e azul) e informações irrelevantes (direita/vermelho e roxo). O formato oval
(azul/roxo) significa o resultado da consulta sobre informações de complicação. A consulta
ideal e desejável é quando for recuperada toda a parte esquerda da figura (verde e azul), tendo
assim 100% de precisão e revocação (equações das medidas explicadas a seguir).
40
Figura 15 – Medidas dependem do resultado da consulta (oval/azul e roxo).
Na área de RI, a precisão é o número de elementos relevantes recuperados dividido
pelo número total de elementos recuperados (Equação (1)) e a revocação é definida como o
número de elementos relevantes recuperados dividido pelo número total de elementos
relevantes existentes (que deveriam ter sido recuperados) (Equação (2)).
(1)
(2)
Na RI uma pontuação perfeita de precisão de significa que cada resultado obtido
por uma pesquisa foi relevante (mas não diz nada sobre se todos os elementos relevantes
foram recuperados), enquanto uma pontuação perfeita de revocação de significa que todos
os elementos relevantes foram recuperados pela pesquisa (mas nada diz sobre quantos
elementos irrelevantes também foram recuperados).
Muitas vezes existe uma relação inversa entre precisão e revocação, onde é possível
aumentar uma ao custo de reduzir a outra. Por exemplo, um sistema de RI pode aumentar a
revocação recuperando mais elementos, ao custo de um número crescente de elementos
irrelevantes recuperados (diminuindo a precisão).
2.3.1.1.2 Precisão e Revocação no contexto da Inteligência Artificial
A matriz de confusão oferece uma medida efetiva do modelo de classificação, ao
mostrar o número de classificações corretas e as classificações preditas para cada classe em
um determinado conjunto de exemplos. Em Monard e Baranauskas (2003) encontra-se
informações de como preencher uma matriz de classes.
A Tabela 3 mostra a matriz de confusão para duas classes (Complicação/Não
Complicação) da Anemia Falciforme. Nesta tabela, P representa o valor positivo que significa
que a palavra-chave extraída é complicação; N representa o valor negativo que significa que
41
não é complicação; p (Extração de Complicação) e n (Extração de Não Complicação) são,
respectivamente, os valores positivo e negativo da extração automática.
Verdadeiro Positivo (VP) significa que uma quantidade X de complicações
relacionadas à Anemia Falciforme extraídas do documento é 100% complicação e foi extraída
corretamente. Já Verdadeiro Negativo (VN) é o oposto, 100% não é complicação e não foi
extraída. Falso Positivo (FP) não é complicação, mas foi erroneamente extraída do documento
e Falso Negativo (FN) é complicação, mas não foi precisamente extraída.
Tabela 3 – Matriz de confusão de duas classes (Complicação/Não Complicação).
Condição Atual
(Avaliação Especialista)
Resultado da Extração
Automática
Complicação
(P)
Não Complicação
(N)
Extração
de Complicação (p) VP (Verdadeiro Positivo)
FP (não complicação, mas é
extraída)
Extração de
não Complicação (n)
FN (complicação, mas não é
extraída) VN (Verdadeiro Negativo)
Incontestavelmente, o resultado que é mais interessante é VP que representa a
quantidade de complicações extraídas. Com base nesse resultado é possível saber qual é a
precisão e a revocação. A primeira medida calcula a percentagem de acerto a partir das
complicações e não complicações que foram extraídas, Equação (3). A segunda calcula a
percentagem das complicações que foram extraídas em relação ao total das complicações,
Equação (4).
Precisão: Taxa com que todos os exemplos classificados como positivos são
realmente positivos. Nenhum exemplo negativo é incluído.
(3)
Revocação: Taxa com que classifica como positivos todos os exemplos que são
positivos. Nenhum exemplo positivo é deixado de fora. Apresenta uma indicação
do quanto do total de informação relevante foi recuperada.
(4)
A partir da matriz de confusão ilustrada na Tabela 3 é possível extrair outras medidas
que possam avaliar o desempenho das complicações extraídas, ou seja, avaliando o quão
verdadeira são as informações extraídas. Em seguida são discutidas algumas dessas medidas.
42
2.3.1.1.3 Outras Medidas de Desempenho
Nas Equações (5), (6) e (7) a seguir considera-se e .
- ( - ): Média harmônica ponderada da precisão e revocação,
Equação (5). mede a eficácia da recuperação em relação ao valor atribuído a
Beta (β). Pesos comumente utilizados para β são: (revocação é o dobro da
precisão) e (precisão é o dobro de revocação). A precisão tem peso maior para
valores , enquanto que favorece a revocação.
(5)
A - foi derivada por van Rijsbergen (1979) baseada na medida de eficiência
(effectiveness), Equação (6), do mesmo autor.
(6)
A relação entre a - e a medida de eficiência é: . Quando a
precisão e revocação têm o mesmo peso (β = 1) a medida é - , também conhecida
como - tradicional ou - balanceada, Equação (7).
(7)
Acurácia: Mais frequentemente utilizada para avaliação de problemas de
classificação de aprendizado de máquina. Há uma boa razão para que esta medida
não seja adequada para problemas de RI: em quase todas as circunstâncias, os
dados são extremamente desproporcionais e normalmente mais de 99,9% das
informações são irrelevantes. Portanto, um sistema cujo objetivo é maximizar a
acurácia pode aparentemente ter uma boa avaliação, pois considera todas as
informações irrelevantes (MANNING; RAGHAVAN; SCHÜTZE, 2008).
(8)
Especificidade: Taxa com que uma instância verdadeiramente negativa é
classificada como negativa.
(9)
43
Segundo Krauthammer e Nenadic (2004), normalmente o desempenho de sistemas de
reconhecimento automático de termo (discutido no capítulo 3) é avaliado em termos de
precisão e revocação; o desempenho global é medido pela - .
2.3.1.2 Medida de Concordância
O coeficiente é uma medida de concordância estatística formulada por Jacob
Cohen (1960). Adequada para tarefas de classificação realizada por vários anotadores/juízes.
Os anotadores – podem ser humanos ou não (algoritmos de classificação é um exemplo de
anotador que não seja humano (FIOL; HAUG, 2009)) – têm a função de definir a que classe
os exemplos pertencem, que por sua vez são utilizados como material de treinamento para
aprendizado supervisionado (CARLETTA, 1996). Introdução sobre aprendizado de máquina é
apresentada em 2.1.2 e em 3.2.2.
O resultado obtido com a medida define um limiar de concordância entre
anotadores seja em tarefas de classificação ou de extração de informação. Esse resultado
depende do número de anotadores, número de classes e número de exemplos a serem
classificados. O limiar de concordância pode ajudar de três formas:
Avaliar o desempenho do sistema comparando o limiar em percentual com os
percentuais obtidos com as medidas como precisão/revocação;
Contribuir em avaliar se o conjunto de treinamento é um material válido,
sendo, às vezes, necessário mais treinamento para aumentar a concordância;
Descartar exemplos controversos. Exemplos que não sejam fáceis dos
anotadores concordarem podem contribuir com o aumento do resultado das
medidas de desempenho utilizadas.
Na Equação (10) é mostrada o coeficiente da medida ou simplesmente
índice , onde é a proporção de vezes que os anotadores concordam, Equação
(11), e é a proporção de vezes que é esperado dos anotadores concordarem ao acaso ou
aleatoriamente.
(10)
(11)
Suponha que dois anotadores são incumbidos de classificar 10 sentenças em duas
classes (complicação e sintoma). O resultado da classificação é mostrado na Tabela 4 e
resumido na matriz de confusão na Tabela 5.
44
Tabela 4 – Exemplo de anotação de dez sentenças.
Sentença 1 2 3 4 5 6 7 8 9 10
Anotador 1 C S C C C S S C S C
Anotador 2 C S C C S S C C S C
Legenda: C = Complicação, S = Sintoma
Tabela 5 – Exemplo de matriz de confusão 2 x 2.
Anotador 1
Complicação Sintoma Total A
nota
dor
2
Complicação 5 1 6
Sintoma 1 3 4
Total 6 4 10
A proporção observada que os anotadores concordaram é: = Os
valores para a distribuição marginal são: e
. A probabilidade dos dois anotadores concordarem por acaso é: =
. A medida , calculada pela Equação (10), é:
, ou seja, na tarefa de classificar 10 sentenças em duas classes os
humanos, representado por dois anotadores, concordam em das vezes.
O exemplo calculado no parágrafo anterior é para duas classes. Para mais de duas
classes considera a matriz de confusão genérica na Tabela 6, onde a matriz de confusão ideal
é quando somente a diagonal principal for preenchida e os outros elementos tenham valor
zero, ou seja, não obteve nenhuma classificação errada. é calculado pela exatidão total
e é calculado pela exatidão total ao acaso, .
Tabela 6 – Matriz de confusão genérica.
Anotador 1
1 2 Total
Anota
dor
2 1
2
Total
Considere o exemplo a seguir mostrado na Tabela 7 para três classes quaisquer
classificadas por dois anotadores.
45
Tabela 7 – Exemplo de matriz de confusão 3 x 3.
Anotador 1
1 2 3 Total
Anota
dor
2 1 25 2 5 32
2 3 26 5 34
3 1 3 30 34
Total 29 31 40 100
O valor de é e de é . Usando a
Equação (10) o índice é , ou seja, nesta tarefa os humanos
concordam em das vezes.
Segundo Manning, Raghavan e Schütze (2008), há outras duas maneiras de calcular a
medida que depende se a combinação da distribuição marginal considera todos os
anotadores ou cada anotador separadamente. O valor da medida varia de , onde
significa concordância completa, concordância aleatória e discordância
máxima.
Em geral a medida acima de é considerada como um bom acordo, entre
e é tido como justo acordo e abaixo de é considerado como duvidosa para
avaliação, embora a interpretação dos resultados da medida dependa dos fins para os quais os
dados serão utilizados (MANNING; RAGHAVAN; SCHÜTZE, 2008). Landis e Koch (1977
apud ASSAF et al., 2006) propuseram uma escala de seis níveis para interpretar os valores de
como mostrado na Tabela 8.
Tabela 8 – Escala de seis níveis de concordância.
Concordância Escala
Ruim Abaixo de
Leve a
Sofrível a
Moderada a
Boa a
Quase perfeita Acima de
2.4 Considerações Finais
Neste capítulo foram discutidas algumas áreas de conhecimento (seção 2.1) que
contribuem para minerar textos: PLN fornece algumas técnicas (POS, shallow parser e deep
parser) que podem ser usadas para processar textos; AM supervisionado classifica novos
exemplos a partir do treinamento de expressivos exemplos; EI extrai informações relevantes
46
em dados não-estruturados; RI contribui parcialmente com a extração, restringindo a
quantidade de documentos a serem processados pela EI; e MD identifica padrões a partir de
dados estruturados armazenados em um banco de dados.
A MD é uma área de descoberta de conhecimento que fornece algoritmos para extrair
padrões interessantes que são difíceis de serem examinados manualmente. Pode atuar na
descoberta de padrões identificando relacionamentos e tendências em dados estruturados.
Também foi destacada a diferença entre EI e RI, e entre MD e MT.
Foram apresentadas várias tarefas de descoberta de conhecimento em textos (seção
2.2) dentre as quais: perguntas e respostas, encontra resposta para uma pergunta realizada pelo
usuário; sumarização, identifica as informações importantes de um texto e apresenta de forma
sucinta e coerente; categorização, classifica um documento em categorias predefinidas;
agrupamento, agrupa um documento em grupos que são definidos a partir da análise dos
dados, diferentemente da categorização onde as categorias são conhecidas; e geração de
hipótese, área introduzida por Don R. Swanson cujo objetivo é encontrar relacionamentos
inesperados que podem gerar hipóteses a partir do modelo de descoberta .
Por fim, foi apresentado um processo de Mineração de Textos (seção 2.3) em quatro
etapas (coleta de documentos, pré-processamento, extração de padrões, e análise e avaliação
dos resultados), no qual foi sintetizado com base em algumas propostas encontradas na
literatura. Também foram discutidas métricas que podem ser utilizadas para avaliar o
resultado das etapas do processo de MT.
No próximo capítulo será discutido sobre Extração Automática, mais especificamente
Reconhecimento Automático de Termo, que reconhece e extrai unidades léxicas de
documentos, as quais correspondem a conceitos de domínio.
47
3 EXTRAÇÃO AUTOMÁTICA
Reconhecimento de Entidade Nomeada (NER) (explicado em 2.1.3) refere-se à tarefa
de reconhecimento de entidades como nome de pessoas e empresas. No domínio biomédico as
entidades são genes, proteínas, doenças. Segundo Park e Kim (2006), NER é diferente de
Reconhecimento Automático de Termo (ATR). O primeiro classifica tipos conhecidos de
entidades do mundo real. O segundo associa um dado termo com um conceito em um
framework semântico bem-definido. Em geral, sistemas de extração de informação que
utilizam NER são mais complicados do que ATR.
As duas áreas de pesquisa se misturam. Segundo Sekine (2004), há um relacionamento
entre a pesquisa de terminologia e entidade nomeada; na área biomédica, por exemplo, os
nomes de proteínas e genes são certamente termos. Para extrair esses termos são utilizadas
algumas técnicas herdadas de NER; Segundo Park e Kim (2006), sistema de reconhecimento
de termo pode utilizar um módulo de NER para reconhecer entidades nomeadas no texto. Para
ratificar a mistura desses conceitos, tanto NER (PARK; KIM, 2006) quanto ATR
(ANANIADOU; NENADIC, 2006) utilizam das mesmas abordagens (baseada em regras,
dicionário e aprendizado de máquina) para extração de informação.
Neste trabalho é considerada a Reconhecimento Automático de Termo (seção 3.1) que
utiliza abordagens para extração de informação baseada em aprendizado de máquina, regras e
dicionário (seção 3.2).
3.1 Reconhecimento Automático de Termo
A terminologia representa na literatura biomédica um dos principais desafios para a
Mineração de Textos. Dada a quantidade de neologismos na terminologia biomédica, é
necessário fornecer ferramentas que extraiam automaticamente novos termos e associá-los
com bancos de dados biomédicos, vocabulários controlados e ontologias. Processamento
terminológico abrange aspectos como a extração, variação de termo, classificação e
mapeamento (ANANIADOU; MCNAUGHT, 2006).
Segundo Ananiadou, Friedman e Tsujii (2004), os termos textuais encontrados na
literatura biomédica – como nomes de genes, proteínas, organismos, drogas, produtos
48
químicos, etc. – representam conceitos de domínio utilizados pela comunidade científica e
seria impossível compreender ou extrair informações de um artigo sem a identificação e
associação precisa desses termos. Neste contexto, na Tabela 9 é apresentado um exemplo de
termos sobre complicações (em negrito) relacionados à doença Anemia Falciforme.
Tabela 9 – Exemplo de sentença com termos sobre complicações (em negrito) da AF.
Fonte: Montalembert et al. (2006).
Treatment was also withdrawn in 5 of 6 children who had developed hypersplenism, in 3 because of
a pathological transcranial Doppler, and in 2 after a stroke
Para ajudar na identificação e extração desses termos utiliza-se o Reconhecimento
Automático de Termo (ATR) que pode ser dividido em três passos (Figura 16):
Reconhecimento de Termo, diferencia os termos dos não-termos; Classificação de Termo,
classifica os termos reconhecidos em classes do domínio; e Mapeamento de Termo, associa
automaticamente termos com novos conceitos representados por uma ontologia.
Figura 16 – Passos para identificação de termo no texto.
Fonte: Krauthammer e Nenadic (2004).
Alguns dos passos podem ser realizados conjuntamente, por exemplo, reconhecimento
e classificação de termos que, respectivamente, podem identificar os termos e associá-los as
classes predefinidas do domínio biomédico (e.g., genes, proteínas ou doenças). Segundo
Krauthammer e Nenadic (2004), a separação ou não das fases com o objetivo de melhorar a
identificação de termo ainda é uma questão aberta. Obviamente, se separadas, diferentes
soluções para identificar termos podem ser utilizadas em problemas específicos.
Variações léxicas, sinônimos (conceito representado com vários termos) e termos
homônimos (termos com vários significados) são obstáculos que impedem que alguns termos
sejam identificados no texto. Identificar precisamente os termos é difícil devido às mudanças
constantes seja por um termo que aparece por um pequeno período ou outros que
frequentemente aparecem, mas deixou de aparecer. O problema é a falta de padronização dos
nomes. Existem alguns guias para criação de novos tipos de entidades biomédicas, todavia as
orientações não são seguidas. Portanto, esses nomes sem padrão são um gargalo para sistemas
de identificação automática (KRAUTHAMMER; NENADIC, 2004).
A importância da terminologia desencadeou pesquisa significativa na área biomédica
que resultou em várias abordagens utilizadas para selecionar, classificar e identificar
ocorrências de termos em textos biomédicos (ANANIADOU; MCNAUGHT, 2006). Neste
49
trabalho de pesquisa em nível de mestrado, concentra-se em reconhecer e classificar os
termos, utilizando para isso a combinação de três abordagens utilizadas para extração de
informação.
3.2 Abordagens para Extração de Informação
Kevin Cohen e Hunter (2008) apresentam duas abordagens para extração de
informação: Abordagem baseada em regras e baseada em aprendizado de máquina. A
primeira faz o uso de algum tipo de conhecimento; a segunda utiliza-se classificadores para
classificar sentenças ou documentos. Krauthammer e Nenadic (2004) e Ananiadou e Nenadic
(2006) apresentam uma terceira abordagem, além dessas duas anteriores: abordagem baseada
em dicionário que utiliza informações de um dicionário para auxiliar na identificação dos
termos ou das entidades no texto. Essas abordagens são as três predominantes para extração
de conhecimento no domínio biomédico.
Cada uma dessas abordagens tem vantagens e desvantagens. Frequentemente gasta-se
tempo significativo para desenvolver um sistema baseado em regras as quais são dependentes
de domínio. Enquanto que um sistema baseado em aprendizado de máquina tipicamente exige
uma grande quantidade de dados para treinamento. Costuma-se utilizar uma combinação das
duas abordagens: geralmente classifica os documentos e em seguida, utilizam-se regras para
extrair padrões (COHEN, K; HUNTER, 2008).
Ainda segundo Kevin Cohen e Hunter (2008), antes de desenvolver um sistema de
mineração de textos é importante seguir alguns passos:
1. Definir o comportamento desejado do sistema: algumas questões podem ser
consideradas, por exemplo: A saída do sistema será utilizada por um
especialista ou será entrada de outro sistema? O processamento será efetuado
em resumos ou artigos completos? É necessário mostrar as informações
encontradas no texto ou devem ser armazenadas em um banco de dados?
2. Outro importante passo tem a ver com o tempo: é necessário examinar
manualmente um grande conjunto de entradas. Algumas horas gastas com a
seleção manual de informações de artigos relacionada ao domínio podem evitar
surpresas desagradáveis no futuro.
3. Também é desejável a consideração de como será avaliado o sistema.
Especificando esses requisitos com antecedência pode evitar problemas no processo de
desenvolvimento. Em seguida serão apresentadas essas três abordagens na seguinte ordem:
50
abordagem baseada em dicionário (3.2.1), abordagem baseada em regras (3.2.2) e abordagem
baseada em aprendizado de máquina (3.2.3).
3.2.1 Abordagem para Extração Baseada em Dicionário
Abordagem baseada em dicionário utiliza uma lista de termos para identificar
ocorrências no texto. Casamento de padrão geralmente é utilizado entre as entradas contidas
no dicionário e as palavras encontradas nas sentenças. Nadeau e Sekine (2007) apresentam
algumas técnicas utilizadas para reconhecimento de entidade nomeada como e
lematização (apresentadas em 2.1.1), distância de edição (TSURUOKA; TSUJII, 2003 apud
NADEAU; SEKINE, 2007) e algoritmo de Soundex (RAGHAVAN; ALLAN, 2004 apud
NADEAU; SEKINE, 2007).
Banco de dados biológico armazena informações de aspectos da biologia como genes,
estrutura de proteína, informações sobre reações químicas, doenças e organismos
(REBHOLZ-SCHUHMANN; KIRSCH; COUTO, 2005). Ainda segundo Rebholz-
Schuhmann, Kirsch e Couto (2005), alguns recursos terminológicos podem ajudar a relacionar
essas informações biológicas, que são citadas em publicações científicas, com informações
armazenadas em um banco de dados. Exemplos desses recursos são: Gene Ontology (GO) e
Unified Medical Language System (UMLS).
Ao contrário dos nomes de pessoas e locais no domínio geral, nomes de proteína e
gene têm sido gerenciados através de banco de dados por grandes organizações como o NCBI
e o European Bioinformatics Institute (http://www.ebi.ac.uk/) (PARK; KIM, 2006). Exemplos
desses bancos de dados são: LocusLink, informação de gene
(http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene); SWISS-PROT, sequência de proteína
(http://www.expasy.org/sprot/); FlyBase, informação de gene, especificamente da Drosófila
que é uma espécie de pequenas moscas (http://flybase.org/); e GenBank, sequência de
nucleotídeo e aminoácido (http://www.ncbi.nlm.nih.gov/Genbank/).
A seguir são apresentados alguns trabalhos que utilizam a abordagem baseada em
dicionário que, por sua vez, é povoado com informações de algum banco de dados citado
anteriormente. São descritos trabalhos que extraem informações sobre gene, interações de
proteína-proteína e proteína. Algumas técnicas são utilizadas para aumentar a probabilidade
das palavras do dicionário ser identificada no texto, como: stemming (ONO et al., 2001) e
lematização (SCHUEMIE et al., 2007) para padronizar, respectivamente, palavras pelo radical
e pela forma básica sem número e gênero; stop words (KOU; COHEN; MURPHY, 2005)
51
para diminuir os falsos positivos; e aproximação de string (KRAUTHAMMER et al., 2000;
TSURUOKA; TSUJII, 2004) que calcula a similaridade entre palavras.
3.2.1.1 Trabalhos com Dicionário
As principais informações dos trabalhos que serão apresentados a seguir são resumidas
na Tabela 10. Destacam-se as técnicas utilizadas para extrair informação e se foi utilizado um
etiquetador - - (POS), qual o dicionário utilizado, o domínio de atuação da
extração, e por fim, quais os valores de precisão e revocação obtidos.
Tabela 10 – Resumo dos trabalhos com dicionário.
Autor Técnicas POS Dicionário Domínio Precisão Revocação
Krauthammer
et al. (2000)
Aproximação
(BLAST) Não GenBank¹
Proteína e
Gene
Ono et al.
(2001)
Etiquetador de Brill
e stemming Sim
Construção
manual
Interações
proteína-
proteína
Tsuruoka et al.
(2004)
Aproximação
(distância de
edição) e expansão
com UMLS
Não UMLS² Proteína
Egorov et al.
(2004)
Toquenização e
abreviação Não
LocusLink e
outras bases¹
Proteína
(mamífero)
Kou et al.
(2005)
HMM, Etiquetador
de Brill e stop
words
Sim PIR-NREF¹ Proteína
Schuemie et al.
(2007) Várias regras Não
Vários
bancos de
dados
Proteína e
Gene ------- -------
¹ Banco de dados utilizado para construir o dicionário.
² Recurso terminológico utilizado para obter termos biomédicos.
Krauthammer et al. (2000) combinam nomes de proteína e gene contidos em um
dicionário com o BLAST (ferramenta de comparação de sequência de proteína e DNA). Os
nomes são convertidos em uma sequência de nucleotídeo (formato de entrada do BLAST),
substituindo cada caractere do nome com uma combinação de nucleotídeo única (exemplo na
Tabela 11). Esses nomes são extraídos do banco de dados GenBank. Dos nomes que não
foram incluídos no banco de dados foram identificados. Precisão e revocação obtidas
foram, respectivamente, de e .
Tabela 11 – Exemplo de tradução para o formato do BLAST.
Fonte: Adaptado de Krauthammer et al. (2000).
Tabela de conversão A AAAC G AAGC P ACCC Z AGAT 1 AGCG
Exemplo zgap1 AGATAAGCAAACACCCAGCG
52
Ono et al. (2001) propõem um método para extrair informação de interações de
proteína-proteína de resumos do MEDLINE utilizando um dicionário que contém nomes de
proteína (somente proteína de levedura e Escherichia coli), padrões de palavra e simples
regras de POS (etiquetador de Brill). O método de extração automática identifica nomes de
proteína na sentença, usando um dicionário construído manualmente. Em seguida, a sentença
é processada com regras de POS e então, são extraídas interações de proteína-proteína
utilizando casamento de padrão. O dicionário construído contém 6.084 moléculas e 16.722
sinônimos (para a proteína de levedura) e 4.405 dados (para a proteína E.coli). A média da
precisão e revocação alcançada para ambas as proteínas é, respectivamente, de e .
Outro método baseado em dicionário é proposto por Tsuruoka e Tsujii (2004) que tem
como objetivo reconhecer nome de proteína. Pode ser dividido em duas fases: na primeira
fase foram identificados os textos candidatos usando um dicionário; na segunda, esses textos
candidatos foram filtrados através do algoritmo de aprendizado de máquina Naive Bayes,
obtendo uma melhora da - de e aumentando a precisão com uma pequena
perda de revocação. Para atenuar o problema de baixa revocação causado pelas variações da
ortografia foram utilizadas duas técnicas: a primeira usa um algoritmo de procura de string
por aproximação (distância de edição) ao invés de procura de string por exatidão; a segunda
expande o dicionário utilizando o UMLS (http://www.nlm.nih.gov/research/umls/) com a
geração de variações de palavras. Com o uso dessas técnicas obteve uma melhora de . A
precisão e revocação obtidas foram, respectivamente, e .
ProtScan é um sistema desenvolvido por Egorov, Yuryev e Daraselia (2004). Utiliza
uma abordagem baseada em dicionário para identificação de nomes de proteínas da classe
mamífero em resumos do MEDLINE. São construídos dois dicionários: um serve para
identificar os nomes nas sentenças; o outro serve para eliminar os falsos positivos e evitar
desambiguação. Os dicionários foram gerados do banco de dados LocusLink e de outras
bases. Técnicas como algoritmo de toquenização e de abreviação são utilizadas. Obteve uma
precisão de e revocação de .
Kou, William Cohen e Murphy (2005) propõem um novo método de aprendizado
denominado Dict-HMMs em que um dicionário é convertido para um modelo escondido de
Markov (HMM) que reconhece frases do dicionário, assim como as variações destas frases.
Dict-HMMs extrai somente nomes de proteína que tem uma alta similaridade com os nomes
no dicionário. O método proposto foi testado com três bancos de dados: a média da precisão e
revocação com esses bancos foi, respectivamente, e . O Dict-HMMs obteve
melhor revocação em comparação com alguns sistemas anteriores, os quais obtiveram uma
53
melhor precisão. Assim, o diferencial deste sistema é a revocação. A vantagem é que o
modelo pode ser treinado com uma pequena quantidade de treinamento (utiliza-se o
etiquetador POS de Brill). Essa pequena quantidade é selecionada dos nomes de proteínas
mais relevantes contidos no dicionário. O dicionário utilizado é o PIR-NREF
(http://pir.georgetown.edu/) que contém aproximadamente 500.000 nomes de proteína.
Schuemie et al. (2007) avaliam algumas técnicas para aumentar a revocação na
identificação de nome de gene e proteína, utilizando a combinação de um dicionário
(construído a partir de informações armazenadas em vários bancos de dados) com regras para
gerar variações de ortografia. Uma lista de regras é utilizada de trabalhos anteriores.
Schuemie et al. (2007), além de utilizar várias regras geradas por trabalhos anteriores,
acrescentam algumas, por exemplo: se os termos contêm letras e números, então desconsidera
a diferença de maiúscula e minúscula. Testes foram realizados com todas as regras
(aumentando consideravelmente a revocação e diminuindo a precisão) e com algumas regras
(diminuiu um pouco a revocação, mas aumentou a precisão). Apesar de várias regras serem
utilizadas, muitas não influenciaram a revocação e algumas influenciaram negativamente a
precisão. Em suma, a combinação dos bancos de dados aumentou significantemente a
revocação em comparação com somente um banco de dados. A precisão e a revocação foram
avaliadas em três diferentes conjuntos de dados e com quatro tipos de organismos. Como o
resultado em cada conjunto é discrepante, não é possível obter uma média realista dessas
medidas.
3.2.2 Abordagem para Extração Baseada em Regras
A seguir alguns exemplos de padrões extraídos a partir de regras:
Identifica sentenças (ou grupos de sentenças) que contenham variações da
palavra "interact", tendo no meio da sentença nome de um gene “genexx” e
que contenha variações da palavra "bind" como mostrado a seguir (GHANEM
et al., 2002).
Encontra relacionamento entre gene e doença com os padrões mostrados a
seguir. Para identificação desses relacionamentos pode-se utilizar análise
linguística e semântica (COHEN, K.; HUNTER, 2008).
54
Em seguida serão apresentados alguns trabalhos que utilizam regras para extrair
informação no domínio biomédico.
3.2.2.1 Trabalhos com Regras
Serão apresentados três trabalhos de diferentes anos que utilizam essencialmente
regras para extrair informação de resumos do MEDLINE, com ou sem o auxílio de um
dicionário. Na extração de informação a técnica de Processamento de Língua Natural -
- (POS) pode ser utilizada. Os níveis de extração podem variar de nomes simples ou
compostos, ou frase. A quantidade de resumos do MEDLINE utilizado para avaliar a extração
de informação também é mostrada. As principais informações são resumidas na Tabela 12.
Tabela 12 – Trabalhos com regras.
Autor POS Níveis de
Extração Dicionário
Resumos
do
MEDLINE
Sistema Domínio -
Fukuda et
al. (1998) Não
Nome
simples e
composto
Não 30 KeX Proteína
Franzén et
al. (2002) Não
Nome
simples e
composto
Sim 200 YaPex Proteína
KeX =
Yapes =
Hu et al.
(2005) Sim Frase Não 300
RLIMS-
P
Fosforilação
de Proteína
PROPER (PROtein Proper-noun phrase Extracting Rules), introduzido por Fukuda et
al. (1998), é um método baseado em regras e um dos primeiros sistemas que extrai nomes de
proteína em publicações biológicas. As regras são geradas manualmente para extrair termos
simples e compostos sem utilizar dicionário. Obteve uma - de em 30
resumos do MEDLINE sobre a proteína SH3. As regras codificadas manualmente com base
em observação do conjunto de dados contribuíram para o alto desempenho do método. A
partir do método PROPER, foi desenvolvido o sistema de extração de informação KeX
(http://www.hgc.jp/service/tooldoc/KeX/intro.html).
Franzén et al. (2002) desenvolveram o sistema YaPex para identificação automática de
nomes de proteína em 200 resumos do MEDLINE que utiliza regras desenvolvidas
manualmente. O YaPex (http://www.sics.se/humle/projects/prothalt/) consiste de duas
análises: léxica e sintática. Na primeira são selecionadas, por exemplo, as palavras com
sufixos (e.g., -ase e -in) e que contenham letras maiúsculas ou números (e.g., HsMad2, U3-
55k). Na segunda utiliza-se o analisador gramatical ENFDB para identificar nomes simples ou
compostos.
55
Os nomes de proteínas identificados são armazenados em um dicionário para ajudar
na seleção de novos termos que não foram identificados pelo ENFDG. Para isso, utilizam-se
as variações desses nomes para encontrar palavras similares no texto. O banco de dados
SWISS-PROT auxilia na identificação dos termos principais. Algumas heurísticas de Fukuda
et al. (1998) são utilizadas na análise léxica. Expressões regulares são aplicadas para reduzir a
baixa precisão, por exemplo: padrões de sufixos de palavras (nomes de substâncias químicas)
ou palavras/expressões de fórmulas químicas, expressões aritméticas e sequência de
aminoácido.
O YaPex identificou mais nomes de proteínas do que o KeX. Franzén et al. (2002)
avaliaram que o analisador sintático ENFDG contribuiu nessa identificação, selecionando
adequadamente nomes simples e compostos. Seis diferentes análises foram realizadas para
avaliar os sistemas. A maior diferença de - entre os dois sistemas foi no limite
(nome que encontra-se do lado direito de uma sentença), respectivamente, de e
.
Outro sistema baseado em regras é o RLIMS-P (Rule-based LIterature Mining System
for Protein Phosphorylation), cujo objetivo é extrair informação de fosforilação de proteína
de resumos do MEDLINE (HU et al., 2005). Foi desenvolvido com base no algoritmo de
Ravikumar (2004 apud HU et al., 2005). Padrões foram criados depois de examinar diferentes
formas usadas para descrever interações de fosforilação em 300 resumos do MEDLINE e 10
artigos.
Dois tipos de tarefas foram implementadas no sistema RLIMS-P: citation mapping
(mapeamento de citação) e evidence tagging. A primeira tem a função de recuperar
informação de artigos do MEDLINE relacionados à fosforilação (obteve precisão e
revocação, respectivamente, de e ). A segunda tem o objetivo de extrair
informação sobre fosforilação dos artigos anotados (obteve precisão e revocação,
respectivamente, de e . - é de ).
O sistema RLIMS-P utiliza shallow parsing e extrai informação do texto utilizando
casamento de padrões desenvolvidos manualmente. No pré-processamento o texto é dividido
em sentenças e toquenizado por palavras e pontuação. Cada palavra é associada às etiquetas
POS, como advérbio, verbos, adjetivos, etc. Utiliza reconhecimento de entidade nomeada para
detectar acrônimo e termo descrito em Narayanaswamy, Ravikumar e Vijay-Shanker (2003
apud HU et al., 2005).
As sentenças podem ser casadas com um simples padrão “ phosphorylate
at ”, onde representa uma enzima (quinase catalisadora de
56
fosforilação), significa um substrato (proteína sendo fosforilada) e P-Site
(resíduo de aminoácido sendo fosforilado). Este passo é para detectar sentenças com estrutura
sintática de acordo com o padrão estabelecido, por exemplo: “Active p90Rsk2 was found to be
able to phosphorylate histone H3 at Ser10”. São usados alguns padrões de etiquetas POS para
identificar grupos de verbos e frases com substantivos.
Classificação semântica é utilizada para melhorar a precisão da extração de frases com
substantivo. A classificação utiliza sufixos, frases e palavras informativas (e.g., “mitogen
activated protein kinase” é classificada como uma proteína por causa da palavra-chave
“kinase”). Outras regras e heurísticas são desenvolvidas com base na detecção de apositivo,
conjunção e pares (sentença e acrônimo) (e.g., o par “mitogen activated protein kinase” e
“MAPK”), detalhadas em Narayanaswamy, Ravikumar e Vijay-Shanker (2003 apud HU et
al., 2005).
Por fim, padrões baseado em regras são identificados na forma verbal (padrões com
diferentes formas: “‘phosphorylate/phosphorylated/phosphorylating/phosphorylates”) e
nominal (seleciona a palavra mais frequentemente encontrada: “phosphorylation”).
3.2.3 Abordagem para Extração Baseada em Aprendizado de Máquina
Como explicado em 1.1.2, os dados iniciais da doença Anemia Falciforme foram
definidos em cinco classes identificados como importantes para serem utilizados na extração
de informação: paciente, sintoma, fator de risco, tratamento e efeitos. Como objeto de estudo
deste trabalho – que visa extrair informação de artigos científicos relacionados a essa doença
– são utilizadas as seguintes classes: fator de risco, efeitos positivo e negativo.
Como as classes já estão definidas, o interesse deste trabalho encontra-se no
aprendizado supervisionado, mais especificamente na classificação que trabalha com rótulos
de classes discretos (e.g., paciente normal, paciente com doença A), diferentemente da
regressão que lida com valores contínuos (e.g., pacientes maiores de 18 anos com altura de
1,8 metros). Em 2.1.2 encontra-se uma introdução sobre Aprendizado de Máquina (AM) e na
Figura 10, a hierarquia do aprendizado indutivo.
Em seguida serão abordados os seguintes assuntos: classificador supervisionado Naive
Bayes; medidas comumente utilizadas para avaliar o desempenho do classificador; métodos
de particionamento usados para separar o conjunto de dados em treinamento e teste; seleção
de característica inserida no contexto do aprendizado, explicando algumas medidas de
utilidade que podem ser utilizadas para redução de características; ferramenta Mover, a qual
implementa o classificador Naive Bayes e fornece a opção de usar uma de três medidas de
57
utilidade, utilizada para auxiliar na leitura e escrita de artigos técnicos; e por fim, é
apresentado alguns trabalhos que utilizam da abordagem de aprendizado de máquina para
extrair informações biomédicas.
3.2.3.1 Classificador Supervisionado: Naive Bayes
Classificadores Bayesianos são classificadores estatísticos supervisionados, cuja
função é predizer a probabilidade de um exemplo pertencer a uma determinada classe.
Exemplo (instância ou padrão) é descrito por um vetor de valores (atributos) e pelo rótulo da
classe associada. Neste trabalho, exemplo estará associado à sentença de um artigo e atributo
a termo de uma determinada classe. Para mais informações sobre “exemplo”, “atributo” e
também sobre “conceito” consultar Witten e Frank (2005). É baseado no teorema de Bayes
(apresentado em seguida), idealizado por Thomas Bayes, sacerdote e matemático inglês, que
trabalhou com probabilidade e teoria da decisão durante o século .
Classificação Bayesiana é uma das muitas técnicas populares que pode ser usada para
classificação de documento eficientemente. Considerado algoritmo de aprendizado indutivo
eficiente e eficaz para AM e mineração de dados (ZHANG, H., 2004). Em alguns domínios o
desempenho tem mostrado comparável com aprendizado de redes neurais e árvore de decisão
(MITCHELL, 1997). É frequentemente utilizado em aplicações de classificação de texto
devido à simplicidade e eficácia (IKONOMAKIS; KOTSIANTIS; TAMPAKAS, 2005).
Uma implementação simples do classificador Bayesiano é conhecido como Naive
Bayes (Naive significa simples em inglês). O termo “simples” surge a partir da independência
condicional da classe, isto é, o efeito de um valor de atributo de uma dada classe é
independente dos valores de outros atributos.
3.2.3.1.1 Teorema de Bayes
Para a explicação do teorema de Bayes considera-se que o termo (“splenic
sequestration”) é uma complicação e a sentença, no contexto de artigos científicos, representa
informação de complicação da Anemia Falciforme.
O evento ocorre quando uma sentença contém o termo . é a probabilidade da
sentença conter o termo . O evento ocorre quando uma sentença é de complicação.
é a probabilidade da sentença ser uma complicação. é a probabilidade de uma
sentença conter o termo dado que é uma complicação.
Em problemas de classificação, procura-se determinar que é a probabilidade
de ocorrer o evento dado que o evento aconteceu. é a probabilidade da sentença
ser uma complicação dado que contém o termo .
58
O algoritmo de Bayes conhece a priori , , analisando os exemplos
de treinamento. é calculado pela fórmula de Bayes, Equação (12).
(12)
3.2.3.1.2 Classificação com Naive Bayes
Segundo Mitchell (1997), o classificador Naive Bayes está entre os mais eficazes
algoritmos para aplicações de classificação de documentos textuais. Han e Kamber (2006)
apresentam o processo de classificação do Naive Bayes dividida em cinco passos, a saber:
1. Seja um conjunto de treinamento de sentenças distribuídas nas respectivas
classes. Cada sentença é representada por um vetor de termos n-dimensional,
e cada termo está relacionado à sentença,
respectivamente, por .
2. Suponha que há classes . Dado uma sentença , o classificador
irá predizer que pertence a classe que tiver a maior probabilidade posterior,
condicionada a . Isto é, a sentença pertence a classe se e somente se
Portanto, pelo teorema de Bayes para a classe é maximizada pela
Equação (13):
(13)
3. Como é constante para todas as classes, somente necessita
ser maximizada. Se a probabilidade prévia da classe não é conhecida, então é
comumente assumido que as classes têm probabilidades iguais, isto é,
. Portanto, somente é necessário maximizar .
Caso contrário, é maximizado . Note que a probabilidade prévia
da classe pode ser estimada por , onde é o número
de sentenças de treinamento da classe em .
4. Considere um conjunto de dados com muitos termos. Seria
computacionalmente caro calcular para cada termo. A hipótese
simples de independência condicional da classe é usada a fim de reduzir o
custo computacional para avaliar . Presume-se que os valores dos
termos são condicionalmente independentes um do outro. Assim, pela Equação
(14) tem-se a probabilidade de condicionada a classe .
59
(14)
Lembrando que refere-se ao valor do termo da sentença . Para cada
termo computa-se da seguinte forma: dividido por .
5. é avaliada para cada classe a fim de predizer a qual classe a
sentença pertence. O classificador prediz a classe para a sentença para a
classe que tiver a probabilidade mais alta, Equação (15).
(15)
3.2.3.2 Medidas de Desempenho do Classificador
Medida comumente utilizada para avaliar um classificador é a taxa de erro (também
conhecida como taxa de classificação incorreta). Sendo n o número de exemplos, o ,
calculado pela Equação (16), compara a classe verdadeira de cada exemplo com o rótulo
atribuído pelo classificador induzido . A expressão retorna 1 se a condição
for verdadeira e zero caso contrário.
(16)
O complemento da taxa de erro é a precisão do classificador, denotada por
, Equação (17).
(17)
Há um limiar (erro máximo) que é estabelecido para um classificador. O erro chamado
de erro majoritário é calculado em um conjunto de exemplos a partir da distribuição das
classes, Equação (18).
- (18)
O erro majoritário é um baseline. O classificador mais simples que se pode construir
sempre escolhe exemplos da classe majoritária e comete o erro majoritário. Os classificadores
construídos idealmente devem errar menos que esse classificador “ingênuo”. Por exemplo,
considere a seguinte distribuição de classes
em um conjunto de 100 exemplos. A classe é a classe majoritária.
Portanto, o erro majoritário do conjunto de exemplos é - .
60
Para avaliar o desempenho dos classificadores utiliza-se a taxa de erro, entretanto há a
necessidade de usar uma medida de custo nas seguintes situações: quando há a prevalência de
uma classe sobre a outra (por exemplo, prevalência da classe com no conjunto com a
seguinte distribuição de classe ); ou quando cada tipo de
classificação incorreta (isto é, falsos positivos e falsos negativos, conceitos apresentados em
2.3.1.1) possui um custo diferente. O custo é um número que representa uma penalidade
aplicada quando um classificador faz um erro ao rotular exemplos, Equação (19).
(19)
Portanto, o objetivo do AM é construir classificadores com baixa taxa de erro ou
baixos custos de classificação incorreta. Detalhes de algumas medidas de desempenho em
2.3.1.1.
3.2.3.3 Métodos de Particionamento
Avalia-se o resultado obtido pelos classificadores para compreender a abrangência e a
limitação dos diferentes algoritmos. Vários métodos são usados em conjunto com uma
medida de desempenho, geralmente a precisão ou o erro, para fazer essa avaliação.
A seguir serão apresentados alguns métodos de particionamento de amostragem
randômico (Holdout, Amostra Aleatória, Cross-Validation e Bootstrap). O Cross-Validation é
um dos métodos mais utilizados para particionamento de exemplos (KOHAVI, 1995;
MANNING; SCHÜTZE, 1999; CHEN et al., 2005; KANYA; GEETHA, 2007).
Holdout: Os exemplos são divididos em uma percentagem fixa p de treinamento e
para teste, considerando normalmente . O valor típico para p é ,
representando aproximadamente para treinamento e para teste. A vantagem é a
independência dos exemplos e o tempo para computar não é muito grande. No entanto, a
avaliação pode ter uma alta variância, dependendo de como é feita a divisão do conjunto de
treinamento e teste.
Amostra Aleatória: Consiste na múltipla aplicação do método holdout. Em cada
iteração, os exemplos são particionados em conjuntos de treinamento e teste. Após o
treinamento é obtida a taxa de erro do conjunto de teste. São realizadas tipicamente 20
iterações deste método e a estimativa da taxa de erro verdadeira é a média das taxas de erro do
conjunto de teste de cada iteração (BATISTA; MONARD, 1998). Pode produzir melhores
estimativas de erro que o estimador holdout. A vantagem é a independência dos exemplos.
61
Cross-Validation (Validação Cruzada): Uso dos mesmos dados, repetidas vezes,
divididos diferentemente. Em k-fold cross-validation o conjunto de dados (os exemplos) é
aleatoriamente dividido em partições mutuamente exclusivas (folds). De tamanho
aproximadamente igual a exemplos. As folds são usadas para treinamento e o fold
restante para teste. Este processo é repetido vezes, cada vez considerando um fold diferente
para teste. O erro é a média dos erros calculados em cada um dos folds. Veja exemplo a
seguir.
Considere o conjunto de dados de 168 exemplos distribuído em três classes
relacionadas à Anemia Falciforme:
a) Tratamento (50);
b) Sintoma (38);
c) Complicação (80).
Suponha que o valor de (folds) é 3. Valor comumente usado para é 10, conhecido
como 10-fold cross-validation. Porém, este valor depende da amostra dos dados. O tamanho
de cada fold é calculado por exemplos. Os 56 exemplos são selecionados
aleatoriamente no conjunto total dos 168 exemplos e são exclusivos, isto é, cada exemplo
pertence somente a um único fold. Assim, uma possível distribuição dos exemplos é mostrada
na Figura 17.
Classes
T S C
F
old
s
1
20 6 30 = 56
2
15 6 35 = 56
3
15 26 15 = 56
Exemplos
50 38 80 = 168
Figura 17 – Exemplo de Cross-Validation.
Depois da distribuição dos valores entre as classes em cada fold, dois folds
são escolhidos para treinamento e um para teste (fold restante). O processo é repetido vezes
testando o fold que ainda não foi usado para teste. Pode-se adotar o seguinte algoritmo. Para
treinar os dois primeiros folds e testar com o terceiro; treinar o 1º e o 3º e testar
com o segundo; e para treinar o 2º e o 3º e testar com o primeiro.
A vantagem do cross-validation é na divisão dos dados. Cada partição é testada
exatamente uma vez para o conjunto de treinamento vezes. A variância é reduzida a
62
medida que o é aumentado. A desvantagem é que o algoritmo de treinamento tem que
repetir vezes, o que significa um custo computacional elevado.
Existem duas variações comumente usadas do cross-validation: Stratified Cross-
Validation e Leave-One-Out (LOO). A primeira considera a percentagem de distribuição das
classes. No exemplo anterior, as classes tratamento, sintoma e complicação representam,
respectivamente, 30%, 22% e 48% do valor total da amostra. Isto significa que cada fold terá
esta proporção de exemplos em relação ao tamanho da fold que é de 56 (Figura 18).
Classes
T S C
F
old
s
1
17 12 27 = 56
2
17 12 27 = 56
3
16 14 26 = 56
Exemplos
50 38 80 = 168
Figura 18 – Exemplo de Stratified Cross-Validation.
LOO é um caso particular da cross-validation quando k for igual a quantidade de
exemplos. Considerando 168 exemplos, a quantidade de folds seria então 168. Para
treinamento são os mesmos exemplos e um fold para teste. O processo é executado
168 vezes, sendo que cada fold conterá somente uma classe (Figura 19). É
computacionalmente custoso e por isso é usado em amostras pequenas.
Classes
Fold
s
1
T, S ou C
2
T, S ou C
3
T, S ou C
.
.
.
.
.
.
168
T, S ou C
Figura 19 – Exemplo de Leave-One-Out.
Bootstrap: Consiste em construir um conjunto de treinamento através da amostragem
com reposição de casos a partir de um conjunto de exemplos de tamanho . Amostrar com
reposição significa que os exemplos de treinamento são retirados do conjunto de exemplos,
mas os elementos selecionados permanecem no conjunto de exemplos, de forma que um
mesmo elemento possa ser escolhido aleatoriamente mais de uma vez.
Por exemplo, considere dez exemplos de treinamento (cada número representando
uma sentença). A Figura 20 mostra uma iteração, sendo que as sentenças não foram
63
selecionadas para treinamento, enquanto que a sentença foi selecionada três vezes e as
sentenças e foram selecionadas, cada uma, duas vezes. As sentenças de teste são formadas
pelas sentenças que não foram selecionadas para treinamento.
Nesse método são realizadas aproximadamente 200 iterações. A taxa de erro estimada
é a média das taxas de erro de cada iteração.
Treinamento
1,3,7,1,4,1,5,7,3,10
Teste
2,6,8,9
Figura 20 – Exemplo de Bootstrap.
Kohavi (1995) faz uma comparação dos dois métodos mais comuns para estimar a
precisão do classificador (cross-validation e bootstrap) e recomenda o método stratified 10-
fold cross-validation. Han e Kamber (2006) corrobora o uso desse método mesmo que o
poder computacional permita mais folds. Encontram-se mais detalhes dos métodos holdout,
cross-validation e bootstrap em Stranieri e Zeleznikow (2005), no qual é ilustrado o erro
verdadeiro dos métodos apresentados anteriormente.
Ainda segundo Stranieri e Zeleznikow (2005), o método que obteve o menor erro foi o
bootstrap seguido do LOO, cross-validation e holdout. Entretanto, é difícil usar na prática o
bootstrap ou LOO, porque estes métodos exigem que os dados sejam repetidos diversas
vezes, usando um considerável esforço computacional. Na Tabela 13 é apresentado o resumo
dos métodos de particionamento.
Tabela 13 – Resumo dos métodos de particionamento.
Fonte: Adaptado de Monard e Baranauskas (2003).
Holdout Aleatória LOO k-Fold CV k-Fold Stratified CV Bootstrap
Treinamento Teste 1
Iterações
Reposição não não não não não sim
Prevalência
de Classe não não não não sim sim/não
Parâmetros representa o número de exemplos, o número de (partições), número entre e
número entre
3.2.3.4 Seleção de Características
Seleção de Características (Feature Selection) é o processo de selecionar um
subconjunto de termos do conjunto de treinamento e usá-lo na classificação de texto. Serve
para dois propósitos: diminuir a quantidade do vocabulário de treinamento, tornando o
classificador mais eficiente (na maioria das vezes o custo computacional de treinar é caro);
aumentar a precisão da classificação eliminando ruído (MANNING; RAGHAVAN;
64
SCHÜTZE, 2008). Segundo Ikonomakis, Kotsiantis e Tampakas (2005), é a redução da
dimensionalidade do conjunto de dados que tem o objetivo de excluir as características que
são consideradas irrelevantes para a classificação.
Um algoritmo básico de seleção de características pode ser visto no Algoritmo 1. Para
uma dada classe c é computado a medida de utilidade (linha 4) para cada termo do
vocabulário (linha 3) e é selecionado os k termos que tem os valores mais altos em relação ao
cálculo da medida. Todos os outros termos são descartados e não são utilizados na
classificação.
Algoritmo 1 – Seleção das melhores k características.
Fonte: Manning, Raghavan e Schütze (2008).
Entrada: : conjunto de documentos textuais.
: classe.
Saída: Lista com os valores de k mais altos.
1 ExtrairVocabulário
2 []
3 para cada
4 faça CalculaMedidaUtilidade
5
6 retorna MaiorValorCaracterística
Para redução das características existem várias medidas de utilidade que podem ser
utilizadas: frequência, ganho de informação, informação mútua e (qui-quadrado). A seguir
são apresentadas sucintamente cada uma delas.
Frequência de Documento (FD): É o número de documentos da classe que contém
o termo , Equação (20). A hipótese é que termos raros não são importantes para a predição
da categoria e não afeta o desempenho global. Não selecionando termos raros reduz a
dimensionalidade do espaço de característica. A grande maioria das palavras que ocorrem em
um documento tem uma FD muito baixa, o que significa que através da redução da frequência
apenas essas palavras são removidas, enquanto as palavras com frequência baixa, média e alta
são preservadas (SEBASTIANI, 2002).
(20)
Ganho de Informação (GI): Mede o número de bits de informação obtido por uma
predição de categoria conhecendo a presença ou ausência do termo em um documento. A
complexidade do tempo é e a complexidade do espaço é , onde é o número de
documento de treinamento e é o tamanho do vocabulário. A computação da entropia tem
65
um tempo de complexidade de O GI do termo com a classe variando de
é definida pela Equação (21).
(21)
é a probabilidade que o termo ocorre e é a probabilidade que o termo não
ocorre. é a probabilidade condicional da ocorrência de um termo na classe e
é a probabilidade condicional de não ocorrer o termo na classe .
Informação Mútua (IM): É um critério comumente usado em modelagem estatística
de associação de palavras. Considera o termo e a categoria , sendo que é o número de
vezes que e coocorrem, é o número de vezes que ocorre sem , é o número de vezes
que ocorre sem e é o número total de documentos. A estimativa do termo e categoria
é apresentada na Equação (22). O tempo de complexidade é , similar ao GI. É uma
medida da quantidade de informação que uma variável contém sobre outra. A IM é maior
quando todas as ocorrências de dois termos são adjacentes umas às outras, deteriorando-se em
baixa frequência.
(22)
Qui-quadrado ( ): Mede a falta de independência do termo e da categoria . A
medida tem valor zero se e são independentes. A computação tem complexidade
quadrática, similar a IM e ao GI. Considera o significado de , B e explicado na medida
anterior. é o número de vezes que não ocorrem nem e . A medida é definida pela
Equação (23).
(23)
Yang e Pedersen (1997) apresentam um estudo comparativo dos quatros métodos
apresentado anteriormente no qual o GI e foram os mais eficientes na redução da
dimensionalidade. Os experimentos foram realizados com o classificador nearest neighbor no
documento da Reuters, obtendo redução de 98% dos termos e o mais importante, houve
melhora na precisão do classificador.
66
A FD, método com o mais baixo custo computacional, obteve um desempenho similar
aos dois métodos citados no parágrafo anterior. O uso da FD é sugerido quando o custo de
usar o GI e for alto. E diferentemente do que é senso comum na recuperação de
informação – que termos comuns não são importantes – o bom desempenho da FD, do GI e
do mostra que de fato os termos comuns (exceto as stop words) são informativos para
tarefas de categorização de texto. A IM teve o pior desempenho comparado com os outros
métodos devido ao favorecimento de termos raros e a forte sensibilidade dos erros estimados.
A principal diferença entre IM e é que esta última tem um valor normalizado que é
comparado com termos da mesma categoria. Caso uma das variáveis (A, B, C ou D) desta
última medida tenha valor desprezível (frequência baixa), não é possível obter o resultado
precisamente. Portanto, não é uma medida confiável para termos com baixas frequências.
Sebastiani (2002) relata a partir de experimentos que algumas medidas se sobressaem
mais do que outras no sentido de qualidade da redução da dimensionalidade. Todavia, faz
uma observação ressaltando que os resultados obtidos com as diferentes medidas são apenas
indicativos e que o mérito de cada medida somente poderia ser obtido com experimentos
comparativos cuidadosamente controlados considerando a variedade de situações diferentes,
por exemplo, classificadores e conjunto de dados diferentes.
Outras medidas de utilidade como odds ratio, probability ratio e pow podem ser
encontradas em Mladenic e Grobelnik (1999), Sebastiani (2002), Forman (2003) e
Ikonomakis, Kotsiantis e Tampakas (2005). Os autores desta última referência destacam que
não existe uma medida que sobressai mais do que as outras e por isso os pesquisadores,
muitas vezes, combinam duas medidas a fim de obter benefícios de ambas.
3.2.3.5 Mover
O Mover é um sistema de classificação de aprendizado supervisionado de estruturas
retóricas. Apresenta as organizações retóricas ou estruturas do texto, conhecidas como moves,
usadas no texto, a fim de ajudar estudantes não-nativos que tenham dificuldades na leitura e
escrita técnica seja por falta de conhecimento ou experiência. O sistema aprende
características estruturais do texto usando um pequeno número de exemplos de treinamento e
pode ser aplicado em diferentes textos (ANTHONY; LASHKIA, 2003).
Um modelo conhecido para representação de palavras é o bag of words (saco de
palavras) que divide as sentenças em palavras individuais (toquenização). A representação
bag of words não considera a ordem da palavra, a semântica ou a gramática da linguagem,
67
porém para tarefas de processamento no nível de sentença tem mostrado sucesso
(ANTHONY; LASHKIA, 2003).
Contudo, para representar o conhecimento dos moves estruturais foi utilizado a
representação de grupos denominado modelo bag of clusters. Com este método é considerado
o grupo de palavras. Considere a seguinte sentença “once upon a time, there was an island”,
uma faixa de grupos poderia incluir, por exemplo, “once, upon, once upon e once upon a
time”. Cada sentença do conjunto de treinamento é dividida em grupos de palavras com
tamanho que variam de uma a cinco palavras.
Alguns grupos, por exemplo, “upon a” e “time there” contribuem pouco para o
processo de aprendizado. Esses termos irrelevantes são conhecidos como ruído. Removendo o
ruído espera-se que o sistema melhore a velocidade de processamento e principalmente a
precisão do classificador. Utilizou-se a medida ganho de informação que classifica os grupos
de palavras de acordo com a pontuação. O ruído é reduzido excluindo os grupos que estão
abaixo de um limiar.
O classificador utilizado é o Naive Bayes combinado com uma das seguintes medidas
de utilidade, ganho de informação, qui-quadrado ou frequência, para eliminar ruído.
Experimentos com outros algoritmos de AM mais complexos, como Árvores de Decisão e
Redes Neurais, foram realizados, no entanto o classificador Bayesiano apresentou melhor
desempenho para a identificação das estruturas textuais (LEWIS, 1998 apud ANTHONY;
LASHKIA, 2003). O método de particionamento utilizado é o 5-fold cross-validation. O
treinamento é realizado com 100 resumos de artigos de pesquisa sobre Tecnologia da
Informação publicados no IEEE em 1998. Tarefas de pré-processamento foram automatizadas
com intuito de remover irrelevantes caracteres como espaço em branco, linhas irregulares, etc.
Na Figura 21 é apresentada a tela principal do Mover, cuja ferramenta está disponível
na web (ANTHONY, 2009). O conjunto de dados de treinamento foi separado em seis classes
(Claim centrality, Generalize topics, Indicate a gap, Announce research, Announce findings e
Evaluate research) conforme o espaço de pesquisa de Swales, Create a Research Space –
CARS (ANTHONY, 1999).
68
Figura 21 – Ferramenta Mover.
Foram realizados testes com os resumos dos artigos técnicos e obteve uma média de
precisão de . Segundo Anthony e Lashkia (2003), uma característica importante do
classificador Naive Bayes é a habilidade de pontuar decisões a partir da solução mais
provável. Assim, duas técnicas podem ser utilizadas para melhorar a precisão da ferramenta:
otimização de fluxo, aumenta a precisão do sistema em a um pequeno custo
computacional; e adição de treinamento, usuários podem corrigir manualmente classificação
realizada pela ferramenta e adicionar nova informação para treinamento que em princípio
pode obter melhores resultados ao custo de mais tempo. Com o uso dessas técnicas alcançou
uma melhora na precisão de . Resultado inexpressivo foi obtido para uma determinada
classe que pode ser explicado pela pouca quantidade de exemplos de treinamento da mesma
(ANTHONY; LASHKIA, 2003).
3.2.3.5.1.1 Trabalhos correlatos ao de Anthony
Trabalhos recentes utilizam outros classificadores de texto para identificar estruturas
retóricas: HMM (WU, J. et al., 2006) e SVM (PENDAR; COTOS, 2008).
Na Tabela 14 á apresentado o resumo desses trabalhos em comparação com o Mover
que está em destaque na tabela. Os três trabalhos têm como objetivo desenvolver uma
ferramenta educacional para melhorar as habilidades de escrita acadêmica de estudantes não-
nativos e para isso, utilizaram a categorização de texto para classificar automaticamente
sentenças de artigos de pesquisa baseado no modelo de discurso de Swales.
Jien-Chen Wu et al. (2006) desenvolveram um sistema de aprendizado on-line (CARE
– Concordancer for Academic wRiting in English) que identifica as sentenças com as
69
respectivas estruturas retóricas: Background, Purpose, Method, Result e Conclusion. Pendar e
Cotos (2008), obtiveram alguns resultados preliminares na classificação de sentenças em uma
das três estruturas retóricas: Establishing a territory, Establishing a niche ou Occupying the
niche. Anthony e Lashkia (2003) definiram seis estruturas como apresentado em 3.2.3.5.
Tabela 14 – Resumo de trabalhos que utilizam estruturas retóricas.
Anthony (2003) Jien-Chen Wu et al.
(2006)
Pendar e Cotos
(2008)
Classificador Naive Bayes HMM SVM
Estruturas retóricas
Claim centrality
Generalize topics
Indicate a gap
Announce research
Announce findings
Evaluate research
Background
Purpose
Method
Result
Conclusion
Establishing a
territory
Establishing a niche
Occupying the niche
Seleção de
Característica FD, GI ou -----------¹ Odds ratio
Sequência de palavras 1-grama até
5-gramas 2-gramas 1, 2 e 3 gramas
Sentenças treinadas ²
-Fold Cross-
Validation -----------¹
Nível de classificação Sentença/Resumo Sentença/Resumo Sentença/Introdução
Sentenças utilizadas
para concordância -----------¹ -----------¹
487
k =
Modelo de discurso Swales Swales Swales
Precisão para trigrama
¹ Informação não encontrada no artigo.
² 138 sentenças foram utilizadas como teste.
Dados rotulados nas respectivas estruturas retóricas são utilizados para treinamento.
Após o treinamento, os dados não-rotulados são classificados com base nas estruturas
definidas em cada um dos trabalhos.
Pendar e Cotos (2008) utilizaram a medida de utilidade odds ratio com o objetivo de
eliminar ruído, assim como Anthony e Lashkia (2003) que utilizaram três medidas FD, GI ou
(a medida que teve melhor resultado foi o GI). Jien-Chen Wu et al. (2006) não utilizaram
nenhuma medida de utilidade.
As sequências de palavras utilizadas para treinamento variam entre os trabalhos:
Pendar e Cotos (2008) utilizaram 1, 2 ou 3 gramas; Jien-Chen Wu et al. (2006) utilizaram
somente 2 gramas, identificando sentenças com as respectivas expressões, por exemplo, “we
propose”, “we show” e “we present”. O termo “grama” refere-se ao método “bag os clusters”
utilizado por Anthony e Lashkia (2003). Esses últimos autores utilizaram de 1 a 5 gramas (o
padrão utilizado é 5).
70
As sentenças utilizadas para treinamento foram 554 (ANTHONY; LASHKIA, 2003),
684 (WU, J. et al., 2006) e 11.840 (PENDAR; COTOS, 2008). Pendar e Cotos (2008)
utilizaram o método de particionamento 5-fold cross validation, assim como Anthony e
Lashkia (2003). Jien-Chen Wu et al. (2006) não mencionaram nenhum método.
Diferentemente dos outros dois trabalhos que utilizaram sentenças de resumo, Pendar
e Cotos (2008) utilizaram somente sentenças da seção introdução. Pendar e Cotos (2008)
informaram o valor da medida de concordância entre humanos ( ), sendo avaliada
manualmente em 487 sentenças por dois anotadores. Jien-Chen Wu et al. (2006) obtiveram
, de precisão, inferior a máxima obtida por Anthony e Lashkia (2003) que foi de
. Pendar e Cotos (2008) obtiveram a melhor precisão para trigrama com
aproximadamente .
3.2.3.6 Trabalhos com Aprendizado de Máquina
Na literatura biomédica encontra-se vários trabalhos que extraem informação
utilizando a abordagem de aprendizado de máquina. Não tem a intenção de aprofundar em
cada um desses trabalhos. No próximo parágrafo são apresentados três trabalhos que
identificam nomes de proteína utilizando aprendizado de máquina com os valores de
- obtidos. Em seguida é resumido alguns trabalhos atuais que utilizam diferentes
classificadores.
Nobata, Collier e Tsujii (1999) utilizaram os algoritmos de árvore decisão e de
classificação Bayesiana para identificar frase que contém nome de proteína, com base na
composição de palavras ( - obtida foi de a ). Collier, Nobata e Tsujii
(2000) utilizaram o algoritmo HMM para treinar e detectar nomes de proteína no texto (
de - ). Kazama et al. (2002) utilizaram o SVM para identificar nomes biomédicos
(e.g., proteína, DNA, lipídeo, etc.) e obteve uma variação de - de a .
Vários algoritmos de aprendizado de máquina são utilizados para reconhecimento de
gene ou proteína no domínio biomédico: Naive Bayes (TSURUOKA; TSUJII, 2004);
conditional random fields (MCDONALD; PEREIRA, 2005); combinação de três
classificadores (SVM e duas variações do HMM) (ZHOU, G. et al., 2005).
3.3 Considerações Finais
É crucial a identificação de termos para o processamento automático na literatura
biomédica. O desempenho de métodos de ATR em domínio biomédico varia em torno de
a (precisão) e aproximadamente (revocação) (KRAUTHAMMER;
71
NENADIC, 2004; ANANIADOU; MCNAUGHT, 2006). Para identificar esses termos são
utilizadas três abordagens: abordagem baseada em dicionário, baseada em regras e baseada
em aprendizado de máquina.
Abordagem baseada em dicionário tem a vantagem de armazenar informações
relacionadas a um determinado domínio e possibilitar a identificação de termos como gene,
proteína e doença no domínio biomédico. Um problema é a limitação de nomes que estão
presentes no dicionário. Segundo Kou, William Cohen e Murphy (2005), extratores baseado
em dicionário ao extrair nome de proteína geralmente têm uma baixa revocação, exceto se
lidar com as variações de nome. Uma das maneiras de lidar com essas variações é utilizar
técnicas como aproximação de string (distância de edição). Tsuruoka e Tsujii (2004) ratificam
o problema da variação, alertando para outro: nomes curtos armazenados no dicionário geram
falsos positivos, diminuindo a precisão.
Abordagem baseada em regras tem algumas desvantagens: prolonga
significativamente a construção de sistemas, reduz a capacidade de adaptação de regras em
outro sistema e exclui termos que não correspondem aos padrões predefinidos. Tem em geral
um desempenho melhor do que outras abordagens, no entanto há o problema de adaptação
para novos domínios e classes (ANANIADOU; MCNAUGHT, 2006). Abordagem baseada
em regras é mais adequada quando necessita de um sistema com alta precisão a qual não é
alcançada com a abordagem baseada em aprendizado de máquina devido à insuficiência de
dados de treinamento (AGATONOVIC et al., 2008).
As vantagens de utilizar abordagem baseada em aprendizado de máquina são a
independência de domínio e o alto desempenho para predição. Os principais problemas
relacionados aos algoritmos de AM são a necessidade de grandes quantidades de dados de
treinamento e os dados precisam ser periodicamente re-treinados após o advento de novos
dados. Em geral, a classificação é prejudicada quando o conjunto de dados de uma classe é
pequeno (classe minoritária) em relação a outras classes (ANANIADOU; MCNAUGHT,
2006). O desempenho de sistemas de aprendizado de máquina depende da existência
suficiente de dados de treinamento (TANABE; WILBUR, 2002a).
Segundo Manning, Raghavan e Schütze (2008), não existe um algoritmo ótimo que
resolva todos os problemas. Se o problema de classificação consistir de um número de
categorias bem-separadas, muitos algoritmos de classificação provavelmente trabalharão bem.
Porém, os autores fazem uma ressalva: a maioria dos problemas contém uma grande
quantidade de categorias muito similares.
72
Cada abordagem tem suas vantagens e desvantagens. Para desfrutar das características
positivas dessas abordagens surge a necessidade de utilizar o que cada uma tem de melhor.
Portanto, no próximo capítulo serão apresentados os trabalhos correlatos que extraem
informação de artigos científicos e que utilizam a combinação das abordagens discutidas neste
capítulo.
73
4 TRABALHOS CORRELATOS
No capítulo 3 discutiu-se vários trabalhos que extraem informação de resumos no
domínio biomédico e que utilizam excepcionalmente uma das três abordagens apresentadas:
baseada em dicionário, regras ou aprendizado de máquina. Este capítulo tem o intuito de
apresentar os trabalhos que também extraem informação nesse domínio e que utilizam a
combinação das três abordagens em resumos ou artigos completos.
Portanto, nas Tabela 15 e Tabela 16 são apresentados alguns trabalhos (ordenados por
ano) encontrados na literatura que extraem informação de, respectivamente, resumos e artigos
completos e que utilizam a combinação das três abordagens mencionadas. Além de destacar
qual a abordagem que está sendo utilizada, também são apresentadas, por exemplo, algumas
informações como o domínio da extração (e.g., gene, proteína), sistema desenvolvido a partir
das técnicas utilizadas para a extração de informação (se houver) e a utilização ou não de
algum etiquetador. A seguinte nomenclatura foi utilizada em ambas as tabelas: D significa
Dicionário; R significa Regras; AM significa Aprendizado de Máquina; e POS significa
etiquetador - - .
Tabela 15 – Trabalhos correlatos que extraem informação de resumos.
Autor
Abordagem Informação
D R AM Domínio Sistema
Resumos
do
MEDLINE
POS
Leonard et al. (2002) x x x Gene e Proteína ----- Sim Não
Seki e Mostafa (2003) x x Proteína ----- Sim Não
Mika e Rost (2004a, b) x x x Proteína NLProt Sim Sim
GuoDong Zhou et al. (2004) x x Proteína PowerBioNE Sim Sim
Seki e Mostafa (2005) x x x Proteína Protex Sim Não
Hanisch et al. (2005) x x Gene e Proteína ProMiner Não Não
Chun et al. (2006) x x Gene e Doença ----- Sim Sim
Todos os trabalhos da Tabela 15 extraem informação de resumos do MEDLINE, com
exceção de Hanisch et al. (2005) que utilizam o benchmark BioCreAtIvE. Alguns optaram em
utilizar um etiquetador POS (MIKA; ROST, 2004a, b); já outros optaram em não utilizar
74
nenhum etiquetador devido ao custo computacional (LEONARD; COLOMBE; LEVY, 2002;
SEKI; MOSTAFA, 2003). As medidas de precisão e revocação, utilizadas para avaliar os
resultados obtidos com a extração de informação, não foram apresentadas nesta tabela, pois na
maioria dos trabalhos os valores obtidos dependem de alguns parâmetros inerentes de cada
trabalho.
A seguir são apresentadas algumas informações dos trabalhos da Tabela 15 agrupados
por abordagens utilizadas:
Combinação de dicionário, aprendizado de máquina e regras: Leonard,
Colombe e Levy (2002) utilizaram abordagem baseada em dicionário e regras
para extrair nomes de genes e proteínas dos resumos do MEDLINE e em
seguida, o classificador Bayesiano baseado na frequência das palavras é
utilizado para pontuar os nomes relevantes; Mika e Rost (2004a, b)
desenvolveram um sistema denominado NLProt
(http://cubic.bioc.columbia.edu/services/NLProt/) que combina o algoritmo de
aprendizado de máquina SVM com filtros baseados em regras e dicionário, a
fim de identificar nomes e sequências de proteínas em resumos do PubMed;
Seki e Mostafa (2005) utilizaram a combinação das três abordagens e não
utiliza análise sintática nem etiquetador POS;
Combinação de aprendizado de máquina e regras: GuoDong Zhou et al.
(2004) desenvolveram o sistema PowerBioNE utilizando a abordagem
baseada em aprendizado de máquina (HMM e -vizinhos mais próximos) e
como pós-processamento utilizou padrão para extrair regras automaticamente
dos dados de treinamento;
Combinação de regras e dicionário: Seki e Mostafa (2003) extraíram nomes de
proteína usando regras e dicionário; Hanisch et al. (2005) desenvolveram o
sistema ProMiner que utiliza as palavras geradas a partir da consulta de
dicionário e extrai regras para reconhecer nomes compostos de gene e
proteína;
Combinação de dicionário e aprendizado de máquina: Chun et al. (2006)
extraíram relações de gene e doença utilizando um dicionário construído a
partir de seis bancos de dados. O algoritmo de aprendizado de máquina,
máxima entropia, é utilizado para filtrar os falsos positivos gerados pelo
dicionário.
75
Na Tabela 16 são resumidos alguns poucos trabalhos encontrados na literatura que
extraem informação no domínio biomédico de artigos completos. Cada um será explicado nas
seções subsequentes e detalhes do sistema SCAeXtractor serão explicados no capítulo 5, onde
é discutido a proposta de dissertação de mestrado.
Tabela 16 – Trabalhos correlatos que extraem informação de artigos completos.
Autor Abordagem Informação
D R AM Domínio Sistema Objetivo POS Avaliação²
Tanabe e
Wilbur
(2002a,
b)
x x x Gene e Proteína ABGene Extrair
informação Sim
Resumos
Prec.
Rev.
Artigos
Prec.
Rev.
Corney
et al.
(2004) x x Gene e Proteína BioRAT
Povoar um
banco de
dados
Sim
Resumos
Prec.
Rev.
Artigos
Prec.
Rev.
Bremer
et al.
(2004) x x Gene e Proteína --------
Povoar um
banco de
dados
Não Prec.
Rev.
Garten e
Altman
(2009) x¹ x¹
Genes (G),
Drogas (D) e
Polimorfismos
(P)
Pharmspresso
Destacar as
sentenças de
acordo com a
consulta do
usuário
Não
Revocação
(G)
(D)
(P)
(G e
D)
Nossa
(2009) x x x
Complicação e
Benefício da
Anemia
Falciforme
SCAeXtractor
Povoar um
banco de
dados
Não --------
¹ Ontologia e expressões regulares, respectivamente, do sistema Textpresso.
² Prec. significa Precisão e Rev. significa Revocação.
4.1 ABGene
O ABGene é um sistema treinado em resumos do MEDLINE e testado em um
conjunto de artigos completos do domínio biomédico selecionados aleatoriamente para
identificar nome de gene e proteína. Um etiquetador POS baseado em transformação é
treinado em sentenças de resumos com ocorrência de gene marcada manualmente para induzir
regras. Em seguida, regras e dicionário foram aplicados como pós-processamento.
76
Tanabe e Wilbur (2002b) realizaram duas adaptações no sistema ABGene (TANABE;
WILBUR, 2002a) para extrair informação de artigos completos: Na primeira adaptação
utilizou-se um classificador para atuar na classificação em nível de sentença em artigos
completos. Definiu-se que sentenças abaixo de um limiar não contêm nomes de gene/proteína.
Na segunda é realizado um pós-processamento a fim de extrair supostos grupos de nomes de
gene/proteína. Em 2,16 milhões de resumos do MEDLINE foram encontrados 2,42 milhões
de nomes de gene e proteína. Separou-se em três grupos com limiar igual a: 10 (134.809
nomes), 100 (13.865 nomes) e 1.000 (1.136 nomes).
O treinamento foi feito com um conjunto de 1.000 artigos selecionados aleatoriamente
do PubMed Central, totalizando 7.000 sentenças que foram selecionadas manualmente nos
artigos. O teste foi realizado com um conjunto de 2.600 sentenças, a fim de avaliar como a
heterogeneidade de artigos completos afeta o desempenho do ABGene. A média da precisão e
revocação obtidas foram, respectivamente, e , aquém da obtida em resumos
(Tabela 16).
Tanabe e Wilbur (2002b) relataram alguns problemas na extração em artigos
completos: falsos positivos como nomes de reagentes químicos são mais raros em resumos;
vários falsos negativos encontram-se em tabelas e figuras. As principais técnicas utilizadas
por Tanabe e Wilbur (2002a) é resumida na Tabela 17.
Tabela 17 – Abordagem híbrida proposta por Tanabe e Wilbur (2002a).
PLN Regras Aprendizado de Máquina Dicionário
Etiquetador POS de Brill
(1994)
Expressão
Regular Aprendizado Bayesiano
Lista e banco de
dados
O etiquetador POS utilizado gera automaticamente regras com palavras simples de
nomes de gene e proteína. Em seguida, regras são desenvolvidas para extrair nomes
compostos que são prevalentes na literatura. Algumas técnicas são utilizadas para filtrar os
falsos positivos e falsos negativos, a saber:
Falsos positivos: dicionário e regras são utilizados para remover os falsos positivos. O
dicionário contém 1.505 termos biológicos (ácidos, antígeno, etc.), 39 nomes de aminoácido,
233 enzimas, 593 células, 63.698 nomes de organismo do banco de dados do NCBI ou 4.357
termos não-biológicos. Expressões regulares foram elaboradas para excluir drogas com
sufixos comuns (e.g., -ole, -ane,-ate, etc.) e número seguido de medida (e.g., ).
Falsos negativos: dicionário, aprendizado de máquina e regras são utilizados para
recuperar os falsos negativos. O dicionário de 34.555 nomes simples e 7.611 nomes
compostos é construído a partir do banco de dados LocusLink e do Gene Ontology. Os nomes
77
com uma baixa frequência de trigramas ou uma palavra do contexto antes ou depois do nome
também são selecionados. Palavra de contexto é gerada automaticamente por um algoritmo de
probabilidade (peso Bayesiano ou log odds score) que indica a probabilidade de nomes de
genes adjacentes aparecerem no texto. Expressões regulares adicionais são criadas para
permitir casamento de padrão de palavras com números e letras, e prefixos e sufixos comuns
(e.g., -gene, -like, -ase, homeo-).
Também se utiliza o aprendizado Bayesiano para encontrar a probabilidade de um
documento conter nome de gene/proteína, podendo assim não extrair informação de
documentos que não contêm nomes relacionados. Para isso, documentos que contêm nomes
de gene/proteína são treinados. Na classificação de novos documentos, documentos com
valores de similaridade abaixo de um limiar são descartados.
Extração de informação em resumos obteve uma precisão de e revocação de
usando a combinação da estratégia baseada em conhecimento (dicionário, regra e
PLN) e estatística (aprendizado de máquina). Segundo Aaron Cohen e Hersh (2005), o
ABGene é uma das abordagens baseada em regras mais bem-sucedida para reconhecimento
de gene e proteína em textos biomédicos.
4.2 BioRAT
BioRAT (Biological Research Assistant for Text mining,
http://bioinf.cs.ucl.ac.uk/biorat/) é um sistema capaz de recuperar e analisar informação de
resumos e artigos completos do domínio biomédico (CORNEY et al., 2004). Pesquisa por
artigos (resumo e artigo completo) disponível no banco de dados PubMed a partir da consulta
de entrada do usuário. Os artigos identificados na página no formato PDF são baixados e
convertidos para o formato textual (não é informado como é realizado a conversão de PDF
para o formato textual). Após recuperar os documentos relevantes, o sistema extrai fatos
interessantes. Esses fatos podem ser utilizados para povoar o banco de dados
automaticamente.
A extração de informação é baseada no conjunto de ferramentas desenvolvida pela
Universidade de Sheffield denominada GATE (General Architecture for Text Engineering).
GATE é utilizado para rotular as palavras (POS) para em seguida serem aplicados filtros para
excluir verbos que não são proteínas. Dois componentes do GATE são utilizados: gazetteers e
templates. O primeiro é utilizado para identificar palavras ou frases relacionadas a genes e
proteínas. O segundo permite extrair informação automaticamente a partir de padrões textuais.
Um exemplo de um simples template do sistema BioRAT é:
78
onde “ ” e “ ” são slots para serem preenchidos com nomes de
proteína, definido por um gazetteer. Exemplo de uma sentença que é identificada pelo
template é: “Genetic evidence for the interaction of Pex7p and Pex13p is provided...”. Cada
template é criado manualmente com o auxílio da interface gráfica do BioRAT.
As principais técnicas utilizadas por Corney et al. (2004) é resumida na Tabela 18.
Tabela 18 – Abordagem de extração de informação proposta por Corney et al. (2004).
Recuperação de Informação Extração de Informação Dicionário Regras
Resumos e artigos completos
do PubMed Fatos (gene e proteína) Gazetters Template
BioRAT é comparado com o sistema de extração de informação SUISEKI
(BLASCHKE; VALENCIA 2002 apud CORNEY et al., 2004). O sistema SUISEKI utiliza
conhecimento estatístico como a frequência de palavras que ocorrem em uma frase. Os frames
de SUISEKI, similares aos templates do BioRAT, contêm padrões relacionados a substantivos
e verbos, mas não reconhecem conjunção, adjetivos ou outra classe de palavra.
Para avaliar o BioRAT foi utilizado o DIP (Database of Interacting Proteins) com 389
registros que contém 229 resumos do PubMed. O DIP é um banco de dados que contém
interações entre proteínas, as quais serviram como benchmark para comparar os resultados
obtidos do SUISEKI com o BioRAT.
O sistema BioRAT utilizou um total de 19 templates derivados dos frames de
SUISEKI e 127 gazetteers derivados do MeSH e outras fontes. A revocação alcançada por
ambos sistemas em resumos é aproximadamente a mesma (BioRAT = e SUISEKI =
). A taxa de revocação do BioRAT em artigo completo foi de , sendo
do corpo do artigo e do resumo. No entanto, a precisão do resumo foi maior do que no
artigo completo, respectivamente, e (Tabela 16). Isto aconteceu devido as
imperfeições no conjunto de templates usado pelo BioRAT. É destacado por Corney at al.
(2004) que a solução para diminuir o erro de precisão é utilizar um esforço manual para
aumentar as restrições dos templates.
4.3 Bremer et al. (2004)
Bremer et al. (2004) desenvolveram um sistema integrado que combina dicionários
(sinônimos, gene e proteína) com regras para extrair e organizar as relações genéticas de
artigos completos. As relações extraídas são armazenadas em um banco de dados que inclui o
código único do artigo (código do PubMed) e de quatros seções (resumo, introdução,
79
materiais e método, resultados e discussão) para identificar, respectivamente, o artigo
selecionado e a seção onde as informações foram extraídos.
Dois dicionários são criados com informação de nomes de gene e proteína (282.882), e
sinônimos (274.845 sinônimos e 124 verbos de relação) para identificar sentenças que contém
nomes de gene/proteína. O dicionário de gene e proteína foi construído a partir de vários
banco de dados existentes como o LocusLink, o SWISS-PROT, dentre outros (alguns desses
bancos foram apresentados na seção 3.2.1). O dicionário de sinônimo contém variações de
sinônimos (e.g., inhibit → inhibits, inhibition, inhibited), informações contextuais como
prefixos e sufixos (e.g., kinase, phosphate, receptor) e verbos de interação que foram criados
a partir da análise de 1.000 artigos por um processo semiautomático.
Os nomes armazenados no dicionário ajudaram a identificar sentenças que contêm um
ou mais nomes de gene/proteína. A partir das sentenças identificadas, um conjunto de padrão
de regras foi elaborado para extrair genes. As regras foram baseadas na combinação de nomes
de gene/proteína, preposições e palavras-chave que indicam o tipo de relacionamento entre
genes. Também foram criados padrões usando substantivos e verbos na forma passiva e ativa.
A extração de informação é dividida em quatro passos:
1. Toquenizar o texto em sentenças;
2. Analisar sentenças para identificar frases com substantivo e verbo;
3. Selecionar sentenças que contêm genes usando dicionários de nome de gene e
proteína, e sinônimo;
4. Extrair gene utilizando regras de casamento de padrão.
A ferramenta de processamento textual LexiQuestMine da empresa SPSS
(http://www.spss.com) foi utilizada para construir os dicionários de nomes de gene e
proteína, sinônimos e padrões associados com genes.
Scripts foram desenvolvidos com o auxílio do software GetItRight (disponível
comercialmente em http://www.cthtech.com/) para conectar e baixar artigos completos
automaticamente no formato HTML. Um pré-processamento é realizado para converter o
arquivo HTML para o formato XML. Para isso, por exemplo, removeu as etiquetas HTML,
substituiu símbolos gregos (e.g., α → alfa) e eliminou as referências do artigo. No documento
XML (Figura 22) foram incluídas etiquetas para cada seção, além de informações sobre o
título e código do artigo. As figuras do artigo não foram incluídas no banco de dados, a fim de
economizar espaço de armazenamento.
80
Figura 22 – Exemplo de um documento XML com etiquetas de quatro seções.
Fonte: Bremer et al. (2004).
Foram selecionados artigos no domínio da biologia molecular e da biomedicina, mais
especificamente sobre tumores celebrais, de 20 revistas entre 1999 e 2003. Para avaliar o
sistema, selecionou randomicamente 100 artigos, sendo cinco de cada revista e um de cada
ano. Dez neurobiólogos analisaram manualmente esses 100 artigos e identificaram 141 nomes
de gene. A precisão e revocação alcançadas foram, respectivamente, e (Tabela
16). A baixa precisão foi devido aos erros de padrão na identificação de nomes de
gene/proteína em algumas sentenças e na falta de padrões com palavras compostas para
explorar sentenças complexas. A baixa revocação foi devido à diversidade de 20 artigos
diferentes.
4.3.1 Continuação do Trabalho de Bremer et al. (2004)
A partir da extração de informação de artigos científicos desenvolvida por Bremer et
al. (2004), Natarajan e Berrar et al. (2006) implementaram um processo de mineração de
textos como mostrado na Figura 23: artigos são baixados no formato HTML sem imagem e
convertidos para o formato XML, utilizando a ferramenta GetItFull (NATARAJAN; HAINES
et al., 2006); termos são extraídos do LexiQuestMine utilizando padrões; em seguida, no
módulo Curador, os termos são padronizados utilizando um dicionário de sinônimos para
serem, em fim, armazenados no data warehousing. Os dados armazenados são utilizados em
uma rede de interação para visualizar as interações de gene e proteína.
A partir do armazenamento dos dados, Natarajan e Berrar et al. (2006) identificaram
um relacionamento interessante entre o 1-fosfato de esfingosina e a invasividade de um tumor
e notaram que a rede de interação desenvolvida tem potencial para clarear o entendimento do
81
papel desempenhado por tumores invasivos. Natarajan e Berrar et al. (2006) concluíram que a
extração automática de informações a partir de literatura biológica promete desempenhar um
papel cada vez mais importante na descoberta de conhecimento biológico.
Figura 23 – Processo de extração de padrão e data warehouse.
Fonte: Adaptado de Natarajan e Berrar et al. (2006).
4.4 Pharmspresso
O sistema Pharmspresso (http://pharmspresso.stanford.edu) extrai informação sobre
genes, drogas e polimorfismos de artigos completos da literatura pertinente à área da
farmacogenômica, a partir da consulta determinada pelo usuário. Portanto, é um sistema de
recuperação de informação que utiliza da extração de informação para recuperar as
informações de acordo com a necessidade do usuário (GARTEN; ALTMAN, 2009).
Pharmspresso tem o objetivo de processar artigos completos (formato PDF) utilizando
expressões regulares e indexar o conteúdo com base em uma ontologia de conceitos. O
Pharmspresso é baseado no sistema Textpresso desenvolvido por Müller, Kenny e Sternberg
(2004 apud GARTEN; ALTMAN, 2009).
Textpresso é um sistema de pesquisa baseado em um conjunto de expressões regulares
para encontrar informação a partir da consulta do usuário em artigos fornecidos no formato
PDF; a ontologia foi construída com ajuda de especialista e contém categorias de frases e
palavras de interesse biológico como gene humano, droga, polimorfismo e categorias de
doença.
Na Figura 24 é mostrado o processo de recuperação e extração de informação
realizado pelo sistema. Artigos PDF são baixados, convertidos em formato textual e
toquenizado em palavras e sentenças individuais. Em seguida, o texto é analisado para
identificar palavras ou frases que são membros de categorias específicas de uma ontologia.
82
Essas palavras ou frases identificadas são marcadas e indexadas para serem utilizadas em
pesquisas futuras realizadas por palavras-chave definidas pelo usuário.
Figura 24 – Processo para recuperar e extrair informação do Pharmspresso.
Fonte: Adaptado de Garten e Altman (2009).
A ferramenta open source xpdf (http://www.foolabs.com/xpdf) foi utilizada para
converter arquivos PDF para texto. Scripts em Perl foram adaptados do sistema Textpresso
para toquenizar as sentenças e palavras. A linguagem de programação Perl também foi
utilizada para colocar as etiquetas no formato XML.
Avaliação do sistema Pharmspresso foi realizada em 45 artigos, onde 11 avaliadores
(cientistas familiarizados com a literatura farmacogenética) encontraram 178 genes, 191
drogas e 204 polimorfismos. O sistema encontrou, respectivamente, (139),
(142) e (124). Caso a consulta seja encontrar a relação de gene e droga, a percentagem
é somente de (Tabela 16). Os valores dessas medidas correspondem a revocação
obtida.
Problemas com variações de nomes de gene foram encontrados, causando falsos
positivos. Algumas das limitações do sistema são: o limite de 1.025 artigos completos
predefinidos de 343 revistas diferentes; não há um mecanismo para pontuar as associações
mais frequentemente mencionadas; e impossibilidade de extrair informação de uma tabela
convertida no formato de imagem.
4.5 Considerações Finais
A maioria dos sistemas apresentados neste capítulo extrai informação sobre gene ou
proteína, utilizando a combinação das abordagens comumente utilizadas no domínio
biomédico: dicionário, regras e aprendizado de máquina. Também se encontra trabalhos que
optam em utilizar um etiquetador POS ou não. Em relação ao resultado gerado a partir da
extração de informação, cada trabalho tem objetivos diferentes que podem ser sintetizados
em: recuperar informação destacando as sentenças de acordo com a consulta definida pelo
usuário; extrair informação para dar suporte à análise dos dados. As informações extraídas
geralmente são armazenadas em um banco de dados para posteriormente identificar padrões e
relacionamentos interessantes (Tabela 16).
83
No próximo capítulo será apresentada a proposta de trabalho deste projeto de pesquisa
em nível de mestrado que utilizará a abordagem híbrida: aprendizado de máquina, regras e
dicionário. A primeira será utilizada para classificar as sentenças relacionadas à doença
Anemia Falciforme em complicação, benefício ou outros (não é complicação nem benefício);
a segunda, para extrair termos (complicação e benefício) das sentenças classificadas
utilizando a terceira abordagem para auxiliar na identificação desses termos.
Será apresentada uma metodologia para extração de informação em dados não-
estruturados com o objetivo de armazenar as relevantes informações em um banco de dados
para que posteriormente possam ser extraídos padrões interessantes. O foco deste trabalho é
na segunda etapa (pré-processamento) do processo de Mineração de Textos (apresentado em
2.3), onde serão utilizadas dessas abordagens comumente desenvolvidas na literatura
biomédica para extrair informação.
84
5 PROPOSTA DE DISSERTAÇÃO DE MESTRADO
Este trabalho de pesquisa em nível de mestrado está inserido em um projeto mais
amplo, o qual tem o objetivo de desenvolver um ambiente para a análise de dados da doença
Anemia Falciforme. Este ambiente é composto por dois sistemas principais: DORS-SCA
(Data Organizing and Recovering System for Sickle Cell Anemia) e DSS-SCA (Decision
Support System for Sickle Cell Anemia). O primeiro tem como objetivo extrair informações de
artigos científicos escritos em inglês sobre a doença Anemia Falciforme e armazená-las em
um banco de dados. Já o segundo objetiva identificar padrões ou permitir a predição de fatos
futuros por meio da aplicação de técnicas de data warehouse e mineração de dados.
Esta proposta de dissertação de mestrado está inserida no sistema DORS-SCA. Para
tanto, na seção 5.1 será apresentada a arquitetura geral deste sistema, onde serão discutidas
duas ferramentas: SCAtRanslator e SCAeXtractor. Na seção 5.2 é apresentada uma
metodologia para extração de informação. Em 5.3 são discutidas algumas questões
relacionadas ao desenvolvimento do projeto. E por fim, na seção 5.4 é apresentado o
cronograma de atividades.
5.1 Sistema DORS-SCA
O DORS-SCA tem como primeiro desafio converter documentos do formato PDF, que
é o formato no qual os artigos médicos sobre a doença Anemia Falciforme encontram-se
eletronicamente disponíveis, para o formato XML, que é o formato interno manipulado pelo
sistema de extração de informação. Outro desafio é extrair informações relevantes dos
arquivos em formato XML que possam significar informação imprescindível para os médicos.
A arquitetura geral do sistema DORS-SCA é apresentada na Figura 25.
85
Figura 25 – Arquitetura do sistema DORS-SCA.
Os documentos são os artigos científicos sobre a doença Anemia Falciforme em
formato PDF (não-estruturado) (a). Estes artigos são selecionados e fornecidos por médicos
pesquisadores da doença. Em (b), a ferramenta SCAtRanslator converte os documentos do
formato original PDF para o formato XML. Em (c), a ferramenta SCAeXtractor extrai
informações relevantes dos documentos XML gerados pela ferramenta SCAtRanslator.
O processo de extração é guiado por um banco de dados auxiliar, o DBeXtractor (d),
que contém termos sinônimos da AF que são utilizados para ajudar na identificação de
informações relacionadas à essa doença. As informações extraídas são armazenadas pela
ferramenta SCAeXtractor no banco de dados SCA Database (e), o qual é projetado de acordo
com o modelo relacional (APÊNDICE B – MODELO RELACIONAL) desenvolvido a partir
do modelo de Entidade Relacionamento Estendido (APÊNDICE A – MODELO EER). Esse
banco contém dados da AF como tratamentos, sintomas, efeitos, fatores de risco e pacientes.
Na seção 5.1.1 é apresentado o sistema de conversão PDF→XML denominado
SCAtRanslator que está sendo desenvolvido por um aluno de iniciação científica da
USP/ICMC, Arthur Emanuel de Oliveira Carosia, sob a supervisão da professora Drª. Cristina
Dutra de Aguiar Ciferri, docente que participa do projeto mais amplo citado anteriormente.
Em seguida, na seção 5.1.2 é discutida o objetivo da ferramenta SCAeXtractor e qual a
abordagem utilizada para extração de informação.
5.1.1 SCAtRanslator
Segundo Arthur Emanuel de Oliveira Carosia, existem várias ferramentas disponíveis
atualmente para a conversão de documentos entre diferentes formatos, entretanto encontram-
86
se vários problemas na conversão de PDF para outros formatos como TXT (arquivo de texto
comum) e HTML. As ferramentas apresentam diversas limitações, as quais introduzem erros
de conversão de artigos em duas ou mais colunas, de anotações em subscrito e sobrescrito, de
figuras e de tabelas, dentre outros.
A solução encontrada foi desenvolver uma ferramenta que suprisse as limitações
apresentadas pelas ferramentas existentes, principalmente porque artigos científicos sobre a
doença Anemia Falciforme são usualmente divididos em duas colunas e possuem diversas
observações em subscrito e sobrescrito, além de apresentarem características de formatação
particulares.
A ferramenta SCAtRanslator (Sickle Cell Anemia tRanslator) é uma proposta nesse
sentido. Tem como entrada artigos científicos no formato PDF (não-estruturado). O objetivo é
converter esses arquivos PDF em documentos XML para que possam ser utilizados pela
ferramenta de extração de informação (SCAeXtractor).
Para alcançar esse objetivo foram realizados três passos (Figura 26):
1. API do Gmail, ferramenta de e-mail desenvolvida pela Google, foi utilizada
para converter PDF para HTML sem perda de informação. Esta API foi a
melhor ferramenta encontrada para realização desta tarefa. O arquivo
convertido possui informações textuais com etiquetas HTML;
2. Neste passo utiliza-se do arquivo intermediário TXT para gerar o texto sem
etiquetas HTML e facilitar a leitura e o processamento textual. Este arquivo é
utilizado para substituir as etiquetas HTML por XML;
3. O arquivo TXT contém os dados fornecidos pelo arquivo HTML (passo 1).
Com a elaboração de simples heurísticas (alguns exemplos de heurísticas são
apresentados a seguir) é gerado o documento XML com as seguintes etiquetas:
nome da revista, título, subtítulos, autores do artigo, parágrafos e sentenças de
uma determinada página.
Exemplos de algumas heurísticas desenvolvidas:
A maior fonte do texto identifica o título do artigo;
Palavras em negrito ou totalmente em letras maiúsculas sem ponto final e que
ocupam apenas uma linha são identificadas como subtítulo;
Para identificar parágrafo são analisadas três linhas do arquivo HTML: a
linha atual , linha anterior e próxima linha . Caso o atributo
87
da linha seja maior que a linha e , então a linha inicia um
parágrafo;
Palavra terminada com letra minúscula e seguida de ponto (.) é identificada
como sentença.
Figura 26 – Passos do sistema SCAtRanslator para conversão de arquivo PDF → XML.
A linguagem de programação Perl foi utilizada para geração dos scripts. Cada
documento XML gerado pela ferramenta deve manter o mesmo conteúdo textual do
documento PDF original, permitindo inclusive a identificação de uma sentença de um
parágrafo de uma página. Um exemplo de documento XML gerado pela ferramenta
SCAtRanslator é mostrado na Figura 27.
Figura 27 – Exemplo de documento XML gerado pela ferramenta SCAtRanslator.
88
5.1.2 SCAeXtractor
SCAeXtractor tem o objetivo de extrair informação de artigos científicos sobre a
doença Anemia Falciforme. Para alcançar esse denominador comum, a extração de
informação foi separada em módulos de acordo com as cinco características relacionadas à
AF explicadas em 1.1.2: paciente, sintoma, fator de risco, tratamento e efeitos (positivo e
negativo). Este trabalho de pesquisa em nível de mestrado intenciona extrair informação sobre
efeitos positivo e negativo (os termos benefício e complicação às vezes são usados em
substituição a efeitos positivo e negativo, respectivamente). A extração de informação sobre
paciente está sendo desenvolvida pelo aluno de mestrado, Leonardo de Oliveira Lombardi,
orientado pela professora Drª. Marina Teresa Pires Vieira que também participa do projeto
mais amplo.
Em relação às abordagens utilizadas para extrair informação, cada abordagem tem
vantagens e desvantagens como foi discutido no capítulo 3. Os sistemas de extração de
informação geralmente utilizam a combinação de duas ou mais técnicas para aumentar a
precisão e revocação das informações a serem extraídas. Sabendo-se das vantagens que cada
uma dessas abordagens pode contribuir em um sistema de extração, o sistema proposto neste
trabalho de pesquisa em nível de mestrado, denominado SCAeXtractor (Sickle Cell Anemia
eXtractor), propõe extrair informação com o objetivo de obter as vantagens de cada uma
dessas abordagens.
Este trabalho de pesquisa intenciona extrair informação sobre termos da doença
Anemia Falciforme mais especificamente sobre efeitos positivo e negativo, utilizando a
combinação de três técnicas utilizadas na literatura:
1. Aprendizado de máquina: utilizado para classificação de textos;
2. Regras: padrões são utilizados para extrair informação das sentenças
classificadas no passo anterior;
3. Dicionário: armazena informações relacionadas à AF no intuito de auxiliar na
construção de regras, aumentando a precisão e revocação na identificação
dessas informações. A construção do dicionário será manual, a partir da
identificação de termos em artigos científicos.
5.2 Metodologia de Extração de Informação
A metodologia de extração de informação consiste na utilização das três abordagens
explicadas anteriormente (aprendizado de máquina, regras e dicionário) e que estão inseridas
na fase de pré-processamento do processo de Mineração de Textos discutido na seção 2.3. As
89
etapas do processo são mostradas na Figura 28: coleta de documentos, pré-processamento,
extração de padrões, e análise e avaliação dos resultados.
Figura 28 – Processo de Mineração de Textos.
O objetivo deste trabalho de pesquisa em nível de mestrado é: Coletar os documentos
fornecidos pelo pesquisador, os quais serão a entrada para o pré-processamento textual (a);
Na fase de pré-processamento o documento será convertido do formato PDF para o formato
XML. A partir do documento XML serão utilizadas as três abordagens (aprendizado de
máquina, regras e dicionário) para extrair informações relevantes; Em seguida, em (c) essas
informações serão medidas para avaliar a qualidade da extração. Essas informações também
serão armazenadas em um banco de dados, onde futuramente poderá ser aplicados algoritmos
de Mineração de Dados, a fim de descobrir padrões interessantes (b); A descoberta desses
padrões deverá ser avaliada com o intuito de conhecer a confiabilidade dos mesmos (d).
A etapa de extração de padrões não será realizada neste trabalho e consequentemente
não será avaliada a qualidade dessa extração (objetos pontilhados na Figura 28). Portanto, a
seguir as três etapas utilizadas neste trabalho, coleta de documentos, pré-processamento e
análise e avaliação dos resultados, serão explicadas, respectivamente, em 5.2.1, 5.2.2 e 5.2.3.
A contribuição deste trabalho está na etapa de pré-processamento. Na seção 5.2.4 são feitas as
considerações finais do processo de extração, detalhando e explicando a participação do
especialista do domínio.
5.2.1 Coleta de Documentos
A seleção de documentos que corresponde a entrada do sistema SCAeXtractor possui
as seguintes características:
Artigos científicos completos (full articles) sobre a doença Anemia
Falciforme; Selecionados por especialistas do domínio da doença mencionada,
geralmente pesquisadores da área de saúde (médicos e biólogos);
90
Artigos consultados em revistas científicas como Haematologica, Blood, The
New England Journal of Medicine e British Journal of Haematology;
Fornecidos no formato PDF.
5.2.2 Pré-processamento
Esta etapa irá preparar os dados em um formato que possa ser processado pela
ferramenta SCAeXtractor. Para isso, a ferramenta SCAtRanslator está sendo desenvolvida
para converter formato não-estruturado PDF para o formato semi-estruturado XML. A partir
do documento XML disponível, o próximo passo é classificar as sentenças (5.2.2.1) e em
seguida, extrair informação dessas sentenças (5.2.2.2).
5.2.2.1 Categorização
O classificador Mover (explicado em 3.2.3.5) é utilizado para classificar as sentenças
em três classes (Figura 29): complicação, benefício e outros.
Figura 29 – Treinamento e teste na ferramenta Mover.
O processo de classificação é dividido em duas fases: treinamento e teste. Na primeira
fase é necessário identificar as sentenças de alguns artigos (pretende-se selecionar de 500 a
1.500 sentenças). Este processo é realizado de forma manual e contará com a ajuda de
médicos especialistas da doença para validar se as sentenças foram classificadas corretamente.
Na etapa de Análise dos Resultados (seção 5.2.3) é discutida a forma de avaliar o quanto os
médicos e leigos concordam na classificação das sentenças.
Após identificar as sentenças nos artigos, o classificador Mover será treinado com a
quantidade de sentenças identificadas nos artigos. Este treinamento requer uma determinada
91
quantidade de tempo de processamento dos humanos em selecionarem as sentenças e do
computador em analisar e classificar as sentenças.
Depois do treinamento, artigos com novas sentenças são selecionados para serem
classificados pelo Mover. As sentenças selecionadas dos artigos serão extraídas da etiqueta
do documento XML (Figura 27) por um processo automático. Essa etiqueta é
gerada pela ferramenta SCAtRanslator. Na Figura 30 é apresentado um exemplo utilizando a
ferramenta Mover que classifica dois artigos da doença Anemia Falciforme. As sentenças
desses artigos são classificadas em complicação, benefício ou outros.
Figura 30 – Exemplo do Mover na classificação de sentenças da AF.
Para qualquer classificador realizar bem a tarefa de classificação adequada é
imprescindível haver um bom treinamento e isso significa que as sentenças selecionadas
como complicação, benefício ou outros devem estar bem definidas nas classes adequadas.
5.2.2.2 Extração de Informação
Após a classificação das sentenças, intenciona extrair as informações relevantes dos
artigos, mais especificamente das sentenças classificadas. Para isso será desenvolvido um
módulo de efeitos da doença Anemia Falciforme que faz parte da ferramenta SCAeXtractor.
Este módulo utilizará as abordagens baseada em regras e dicionário. A primeira
abordagem ajudará na identificação de alguns padrões com o auxílio da segunda. Para a
identificação dos padrões são utilizadas expressões regulares (ER). Tem-se pensado em
algumas estratégias para:
92
1. Identificar verdadeiro positivo: algumas palavras correspondentes a
complicação e benefício são armazenadas no banco de dados auxiliar, a fim de
confirmar as sentenças que foram realmente classificadas na devida classe;
2. Eliminar falso positivo: palavras relacionadas a fator de risco também são
armazenadas para auxiliar na identificação de sentenças que foram
classificadas erroneamente;
3. Elaborar outras estratégias.
A partir de alguns testes preliminares na ferramenta Mover, algumas sentenças foram
classificadas como sendo da classe benefício (Tabela 19). Algumas palavras-chave como
, e podem ratificar que as três primeiras sentenças são
mesmo da classe benefício (estratégia 1). Já a palavra-chave
na quarta sentença, pode identificar um falso positivo, não sendo assim inserido no banco de
dados equivocadamente (estratégia 2).
Tabela 19 – Sentenças classificadas pelo Mover como sendo da classe benefício.
1 reductions in the frequency of chest syndrome and the number of transfusions strengthen the
conclusion that hydroxyurea is a useful agent in sickle cell anemia
2 in scd children hydroxyurea has been shown to decrease the rate and the intensity of painful events
and the number of days of hospitalization
3 hydroxyurea therapy can ameliorate the clinical course of sickle cell anemia in some adults with
three or more painful crises per year
4 treatment was also stopped in another patient because of the first occurrence of pathological tcd
velocities
5.2.3 Análise e Avaliação dos Resultados
Para avaliação dos resultados obtidos serão utilizadas as medidas de precisão,
revocação e - . Essas medidas serão utilizadas tanto para avaliar o classificador
(Mover) quanto o extrator (SCAeXtractor). Testes serão realizados com as três medidas de
utilidade (frequência do documento, qui-quadrado e ganho de informação) implementadas no
Mover. Com este teste pretende-se obter melhores resultados com o ganho de informação, o
mesmo resultado obtido por Anthony e Lashkia (2003). O método de particionamento
stratified 10-fold cross-validation será utilizado para calcular a taxa de erro do classificador.
Esta taxa será comparada com a medida . O erro majoritário do classificador também
será calculado.
A medida de concordância será utilizada para avaliar quão bem definida está a
tarefa de classificação, em outras palavras, avaliará como a classificação é realizada por
humanos. Neste trabalho de pesquisa são considerados dois grupos de anotadores/juízes:
93
médico especialista em Anemia Falciforme e leigo (não-médico). Serão considerados para
cada grupo três anotadores que são incumbidos de classificar algumas sentenças (de 50 a 100
sentenças) em três classes: complicação, benefício e outros. Esta última classe é necessária
para caso o anotador considerar que a sentença não seja de nenhuma das outras duas classes.
No domínio biomédico, Hatzivassiloglou, Duboue e Rzhetsky (2001 apud
SCHUEMIE et al., 2007) relataram que anotadores humanos só concordaram em das
ocorrências na tarefa de classificar se a informação no texto é um gene, proteína ou RNAm
(mensageiro). Na tarefa de classificar sentenças da Anemia Falciforme espera-se que os
anotadores médicos concordem mais que esse percentual.
De forma geral, as medidas de precisão, revocação e - serão utilizadas para
avaliar a extração de informação, sendo assim uma avaliação quantitativa; a medida
será utilizada para avaliar a concordância dos especialistas e leigos, sendo uma avaliação
qualitativa.
A partir das três abordagens utilizadas no pré-processamento, intenciona a realização
de quatro experimentos, a saber: 1) Aprendizado de máquina; 2) Regras geradas com
expressão regular; 3) Aprendizado de máquina e regras geradas com expressão regular; 4)
Aprendizado de máquina e regras geradas com expressão regular com auxílio do dicionário. A
precisão, revocação e - também serão as medidas utilizadas para avaliar e comparar
os quatros experimentos.
5.2.4 Considerações Finais
Na Figura 31 é resumido o processo de extração de informação destacando a
participação do médico na extração.
O especialista do domínio tem papel importante durante a conversão PDF→XML e
extração de informação. Na primeira, o especialista pode opinar sobre a conversão
informando a qualidade do documento gerado e sugerindo adaptações; na segunda, o
especialista pode validar a lista de termos identificados na sentença antes da mesma ser
armazenada no banco de dados. Além disso, na primeira etapa (coleta de documentos) o
especialista é incumbido de selecionar os artigos científicos no formato PDF, iniciando assim
a conversão e, por conseguinte a extração. Este processo é semiautomático devido à
participação do especialista do domínio tanto na seleção do documento quanto na extração de
informação.
94
Figura 31 – Processo geral de extração de informação.
Existem vários sistemas que extraem informação utilizando a combinação das três
abordagens. As informações geralmente são extraídas de resumos do MEDLINE e são
frequentemente sobre genes ou proteínas. Como o objetivo deste trabalho de pesquisa é
extrair informação de artigos completos e sobre o domínio da doença Anemia Falciforme, não
é possível realizar uma comparação direta com esses sistemas.
5.3 Questões relacionadas ao desenvolvimento
Para o desenvolvimento do sistema será utilizado a linguagem de programação Java no
ambiente de desenvolvimento integrado NetBeans IDE. O banco de dados será implementado
usando o sistema gerenciador de banco de dados PostgreSQL 8.3. A ferramenta Jude
Community 5.4.1 será utilizada para modelagem do diagrama de classes do sistema (uma
versão inicial pode se encontrada no APÊNDICE C – DIAGRAMA DE CLASSES). O
programa de análise estatística SPSS Statistics 17.0 (Statistical Package for the Social
Sciences) será utilizado para calcular a medida . Exceto a ferramenta da SPSS, todas as
outras são open source.
Para converter arquivos PDF→XML na ferramenta SCAtRanslator está sendo
utilizada a linguagem de programação Perl. Todavia, o módulo de extração da ferramenta
SCAeXtractor está sendo desenvolvido em Java. A dúvida em qual das duas linguagens
utilizar no desenvolvimento do módulo da ferramenta SCAeXtractor, surgiu devido ao
95
conhecido poder de Perl de gerar expressões regulares robustas e por outro lado, de Java
oferecer bons recursos para o desenvolvimento de interface gráfica e leitura de documento
XML.
Perl é conhecida como sendo apropriada para geração de scripts utilizando ER, porém
deixa a desejar no aspecto de interface gráfica e leitura de documento XML. No entanto, além
dos recursos conhecidos da linguagem Java, a partir da versão 1.4 (SUN MICROSYSTEMS),
oferece acesso para desenvolver ER. Assim, por causa desses motivos optou-se em
desenvolver a ferramenta SCAeXtractor em Java. Porém, caso seja necessário o
desenvolvimento de ER em Perl devido à impossibilidade de (ou ao trabalho para) ser
codificada em Java, sabe-se da viabilidade de utilizar uma chamada externa em Java para
scripts Perl.
5.4 Cronograma de Atividades
As atividades propostas para o desenvolvimento deste trabalho de pesquisa em nível
de mestrado são descritas a seguir:
1. Defesa do exame de qualificação;
2. Classificação manual em três classes (complicação, benefício e outros) de 100
sentenças extraídas de artigos científicos sobre a doença Anemia Falciforme
realizada por três anotadores médicos e por três anotadores leigos e, por
conseguinte, cálculo da medida de concordância ;
3. Treinamento e teste no classificador Mover das sentenças de efeitos (positivo e
negativo) da Anemia Falciforme identificadas manualmente nos artigos. A taxa
de precisão do classificador é comparada com o resultado da medida
calculada na atividade anterior. Pretende-se treinar o classificador com 500 a
1.500 sentenças;
4. Desenvolvimento do módulo de extração de efeitos da Anemia Falciforme,
utilizando a abordagem baseada em regras e dicionário;
5. Avaliar o classificador e o extrator com as medidas de precisão, revocação e
- ;
6. Redação e submissão de artigo aos encontros qualificados de Ciência da
Computação;
7. Concepção e projeto da ferramenta SCAeXtractor, integrando o classificador
Mover e o módulo de extração nesta ferramenta para o processo de extração de
informação ser realizado de forma transparente e automática;
96
8. Realização dos quatros testes propostos na análise dos resultados (seção 5.2.3);
9. Possibilitar ao especialista do domínio visualizar e validar o resultado da
extração de informação;
10. Redação da dissertação de mestrado;
11. Preparação e defesa da dissertação.
Tabela 20 – Cronograma de atividades.
Atividade 2009 2010
Abr Mai Jun Jul Ago Set Out Nov Dez Jan Fev Mar Abr
1
2
3
4
5
6
7
8
9
10
11
97
REFERÊNCIAS
AFANTENOS, S.; KARKALETSIS, V.; STAMATOPOULOS, P. Summarization from
medical documents: a survey. Artificial Intelligence in Medicine, v. 33, n. 2, p. 157-177,
2005. Disponível em: <http://dx.doi.org/10.1016/j.artmed.2004.07.017>. Acesso em: 25 fev.
2009.
AGATONOVIC, M. et al. Large-scale, parallel automatic patent annotation. In: ACM
WORKSHOP ON PATENT INFORMATION RETRIEVAL, 2008, Napa Valley, California.
Proceedings... New York: ACM, 2008. p. 1-8. Disponível em:
<http://doi.acm.org/10.1145/1458572.1458574>. Acesso em: 10 mar. 2009.
ANANIADOU, S.; FRIEDMAN, C.; TSUJII, J. I. (Ed.). Introduction: named entity
recognition in biomedicine. Journal of Biomedical Informatics, v. 37, n. 6, p. 393-395,
2004. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2004.08.011>. Acesso em: 12 mar.
2009.
ANANIADOU, S.; MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine.
Norwood, MA: Artech House, 2006. 302 p.
ANANIADOU, S.; NENADIC, G. Automatic terminology management in biomedicine. In:
ANANIADOU, S.; MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine.
Norwood, MA: Artech House, 2006. p. 67-98.
ANTHONY, L. Writing research article introductions in software engineering: how accurate
is a standard model? IEEE Transactions on Professional Communication, v. 42, n. 1, p.
38-46, 1999. Disponível em: <http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=749366>.
Acesso em: 20 fev. 2009.
______. AntMover 1.0. 2009. Disponível em:
<http://www.antlab.sci.waseda.ac.jp/software/antmover1.0.exe>. Acesso em: 09 mar. 2009.
ANTHONY, L.; LASHKIA, G. V. Mover: a machine learning tool to assist in the reading and
writing of technical papers. IEEE Transactions on Professional Communication, v. 46, n.
3, p. 185-193, 2003. Disponível em:
<http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1227591>. Acesso em: 23 out. 2008.
ARANHA, C. N. Uma abordagem de pré-processamento automático para mineração de
textos em português: sob o enfoque da inteligência computacional. 144 f. Tese (Doutorado
em Engenharia Elétrica) – Departamento de Engenharia Elétrica, Pontifícia Universidade
Católica do Rio de Janeiro, Rio de Janeiro, 2007. Disponível em:
<http://www.maxwell.lambda.ele.puc-
rio.br/Busca_etds.php?strSecao=resultado&nrSeq=10081@1>. Acesso em: 18 set. 2008.
ARANHA, C. N.; PASSOS, E. P. L. A tecnologia de mineração de textos. Revista
Eletrônica de Sistemas de Informação (RESI), v.8, n. 2, p. 1-8, 2006. Disponível em:
<http://www.facecla.com.br/revistas/resi/edicoes/ed8tut01.pdf>. Acesso em: 27 ago. 2008.
ASSAF, A. V. et al. Comparação entre medidas de reprodutibilidade para a calibração em
levantamentos epidemiológicos da cárie dentária. Cadernos de Saúde Pública, v. 22, n. 9, p.
98
1901-1907, 2006. Disponível em: <http://dx.doi.org/10.1590/S0102-311X2006000900021>.
Acesso em: 09 mar. 2009.
BADER-MEUNIER, B. et al. Effect of transfusion therapy on cerebral vasculopathy in
children with sickle-cell anemia. Haematologica, v. 94, n. 1, p. 123-126, 2009. Disponível
em: <http://dx.doi.org/10.3324/haematol.13610>. Acesso em: 26 jan. 2009.
BATISTA, A.; ANDRADE, T. C. Anemia falciforme: um problema de saúde pública no
Brasil. Universitas: Ciências da Saúde, v. 3, n. 1, p. 83-99, 2005. Disponível em:
<http://www.publicacoesacademicas.uniceub.br/index.php/cienciasaude/article/viewFile/547/
367>. Acesso em: 29 jan. 2009.
BATISTA, G. E. A. P. A.; MONARD, M. C. Utilizando métodos estatísticos de resampling
para estimar a performance de sistemas de aprendizado. In: WORKSHOP DE
DISSERTAÇÕES DEFENDIDAS, 1998, São Carlos. Proceedings... Instituto de Ciências
Matemáticas e de Computação, 1998. p. 173-184. Disponível em:
<http://www.icmc.usp.br/~mcmonard/public/icmcwshG1998.pdf>. Acesso em: 17 fev. 2009.
BEKHUIS, T. Conceptual biology, hypothesis discovery, and text mining: Swanson's legacy.
Biomedical Digital Libraries, v. 3, n. 1, p. 2, 2006. Disponível em:
<http://dx.doi.org/10.1186/1742-5581-3-2>. Acesso em: 22 ago. 2008.
BLAKE, C.; PRATT, W. Automatically identifying candidate treatments from existing
medical literature. In: MINING ANSWERS FROM TEXTS AND KNOWLEDGE BASES,
2002. Proceedings... Menlo Park, CA: AAAI Press, 2002. p. 9-13. Disponível em:
<http://www.aaai.org/Papers/Symposia/Spring/2002/SS-02-06/SS02-06-003.pdf>. Acesso
em: 22 ago. 2008.
BRASIL. Ministério da Saúde. Protocolo clínico e diretrizes terapêuticas - Portaria
SAS/MS nº 872. 2002. 5 p. Disponível em:
<http://portal.saude.gov.br/portal/arquivos/pdf/falciforme_pcdt.pdf>. Acesso em: 23 jan.
2009.
______. Ministério da Saúde. Manual da anemia falciforme para a população. Brasília -
DF, 2007. 20 p. Disponível em:
<http://bvsms.saude.gov.br/bvs/publicacoes/07_0206_M.pdf>. Acesso em: 30 out. 2008.
______. Ministério da Saúde. Agência Nacional de Vigilância Sanitária. Doença falciforme:
manual do agente de saúde. 2009. 10 p. Disponível em:
<http://bvsms.saude.gov.br/bvs/publicacoes/anvisa/agente.pdf>. Acesso em: 23 jan. 2009.
BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for
analysis of microarray data. In: KNOWLEDGE EXPLORATION IN LIFE SCIENCE
INFORMATICS (KELSI), 2004, Milan, Italy. Proceedings... 2004. p. 84-95. Disponível em:
<http://dx.doi.org/10.1007/b103729>. Acesso em: 27 mar. 2009.
CANÇADO, R. D.; JESUS, J. A. A doença falciforme no Brasil. Revista Brasileira de
Hematologia e Hemoterapia, v. 29, n. 3, p. 204-206, 2007. Disponível em:
<http://dx.doi.org/10.1590/S1516-84842007000300002>. Acesso em: 29 jan. 2009.
99
CARLETTA, J. Assessing agreement on classification tasks: the kappa statistic.
Computational Linguistics, v. 22, n. 2, p. 249-254, 1996. Disponível em:
<http://www.aclweb.org/anthology-new/J/J96/J96-2004.pdf>. Acesso em: 24 out. 2008.
CARRILHO JUNIOR, J. R. Desenvolvimento de uma metodologia para mineração de
textos. 96 f. Dissertação (Mestrado em Engenharia Elétrica) – Departamento de Engenharia
Elétrica do Centro Técnico Científico, Pontifícia Universidade Católica do Rio de Janeiro,
Rio de Janeiro, 2007. Disponível em: <http://www.maxwell.lambda.ele.puc-
rio.br/Busca_etds.php?strSecao=resultado&nrSeq=11675@1>. Acesso em: 18 set. 2008.
CHAAR, V. et al. ET-1 and ecNOS gene polymorphisms and susceptibility to acute chest
syndrome and painful vaso-occlusive crises in children with sickle cell anemia.
Haematologica v. 91, n. 9, p. 1277-1278, 2006. Disponível em:
<http://www.haematologica.org/cgi/content/abstract/91/9/1277>. Acesso em: 25 ago. 2008.
CHANG, C.-H. et al. A survey of web information extraction systems. IEEE Transactions
on Knowledge and Data Engineering, v. 18, n. 10, p. 1411-1428, 2006. Disponível em:
<http://dx.doi.org/10.1109/TKDE.2006.152>. Acesso em: 06 nov. 2008.
CHARACHE, S. et al. Effect of hydroxyurea on the frequency of painful crises in sickle cell
anemia. The New England Journal of Medicine, v. 332, n. 20, p. 1317-1322, 1995.
Disponível em: <http://content.nejm.org/cgi/reprint/332/20/1317.pdf>. Acesso em: 25 ago.
2008.
CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ:
University of Arizona, 2001. 50 p. Disponível em:
<http://ai.bpa.arizona.edu/go/download/chenKMSi.pdf>. Acesso em: 23 out. 2008.
CHEN, H. et al. Medical informatics: knowledge management and data mining in
biomedicine. Berlin: Springer, 2005. 624 p. Disponível em:
<http://ai.arizona.edu/hchen/chencourse/MedBook/>. Acesso em: 23 out. 2008.
CHEUNG, C. F.; LEE, W. B.; WANG, Y. A multi-facet taxonomy system with applications
in unstructured knowledge management. Journal of Knowledge Management, v. 9, n. 6, p.
76-91, 2005. Disponível em: <http://dx.doi.org/10.1108/13673270510629972>. Acesso em:
23 out. 2008.
CHUN, H.-W. et al. Extraction of gene-disease relations from medline using domain
dictionaries and machine learning. In: PACIFIC SYMPOSIUM ON BIOCOMPUTING
(PSB), 11th, 2006, Hawaii. Proceedings... 2006. p. 4-15. Disponível em:
<http://psb.stanford.edu/psb-online/proceedings/psb06/chun.pdf>. Acesso em: 11 fev. 2009.
COHEN, A. M.; HERSH, W. R. A survey of current work in biomedical text mining.
Briefings in Bioinformatics, v. 6, n. 1, p. 57-71, 2005. Disponível em:
<http://dx.doi.org/10.1093/bib/6.1.57>. Acesso em: 11 fev. 2009.
COHEN, J. A coefficient of agreement for nominal scales. Educational and Psychological
Measurement, v. 20, n. 1, p. 37-46, 1960.
100
COHEN, K. B.; HUNTER, L. Getting started in text mining. PLoS Computational Biology,
v. 4, n. 1, p. 1-3, 2008. Disponível em: <http://dx.doi.org/10.1371%2Fjournal.pcbi.0040020>.
Acesso em: 15 dez. 2008.
COLLIER, N.; NOBATA, C.; TSUJII, J.-I. Extracting the names of genes and gene products
with a hidden Markov model. In: CONFERENCE ON COMPUTATIONAL LINGUISTICS -
VOLUME 1, 18th, 2000, Saarbrücken, Germany. Proceedings... Morristown, NJ: Association
for Computational Linguistics, 2000. p. 201-207. Disponível em:
<http://dx.doi.org/10.3115/990820.990850>. Acesso em: 11 mar. 2009.
CONSELHO MUNICIPAL DE DEFESA DOS DIREITOS DO NEGRO. Anemia
Falciforme. 2008. Disponível em: <http://www.rio.rj.gov.br/smas/comdedine/saude.htm>.
Acesso em: 28 jan. 2009.
CORNEY, D. P. A. et al. BioRAT: extracting biological information from full-length papers.
Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/bth386>. Acesso em: 27 fev. 2009.
COVAS, D. T. et al. Effects of hydroxyurea on the membrane of erythrocytes and platelets in
sickle cell anemia. Haematologica, v. 89, n. 3, p. 273-280, 2004. Disponível em:
<http://www.haematologica.org/cgi/content/abstract/89/3/273>. Acesso em: 25 ago. 2008.
CUNNINGHAM, H. Information extraction, automatic. In: KEITH, B. (Ed.). Encyclopedia
of language & linguistics. 2nd. Oxford: Elsevier, 2006. p. 665-677. v. 5. Disponível em:
<http://dx.doi.org/10.1016/B0-08-044854-2/00960-3>. Acesso em: 10 mar. 2009.
DÖRRE, J.; GERSTL, P.; SEIFFERT, R. Text mining: finding nuggets in mountains of
textual data. In: ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE
DISCOVERY AND DATA MINING, 5th, 1999, San Diego, California. Proceedings... New
York: ACM, 1999. p. 398-401. Disponível em: <http://doi.acm.org/10.1145/312129.312299>.
Acesso em: 10 fev. 2009.
EBECKEN, N. F. F.; LOPES, M. C. S.; COSTA, M. C. D. A. Mineração de textos. In:
REZENDE, S. O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos:
Manole, 2003. p. 337-370. cap. 13.
EGOROV, S.; YURYEV, A.; DARASELIA, N. A simple and practical dictionary-based
approach for identification of proteins in MEDLINE abstracts. Journal American Medical
Informatics Association (JAMIA), v. 11, n. 3, p. 174-178, 2004. Disponível em:
<http://dx.doi.org/10.1197/jamia.M1453>. Acesso em: 25 fev. 2009.
FAN, W. et al. Tapping the power of text mining. Communications of the ACM, v. 49, n. 9,
p. 76-82, 2006. Disponível em: <http://doi.acm.org/10.1145/1151030.1151032>. Acesso em:
15 dez. 2008.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From data mining to knowledge
discovery in databases. AI Magazine, v. 17, n. 3, p. 37-54, 1996. Disponível em:
<http://www.aaai.org/AITopics/assets/PDF/AIMag17-03-2-article.pdf>. Acesso em: 20 nov.
2008.
101
FELDMAN, R.; DAGAN, I. Knowledge discovery in textual databases (KDT). In:
INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA
MINING (KDD), 1995, Montréal, Québec. Proceedings... Menlo Park, CA: AAAI Press,
1995. p. 112-117. Disponível em: <http://www.aaai.org/Papers/KDD/1995/KDD95-012.pdf>.
Acesso em: 23 out. 2008.
FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing
unstructured data. New York: Cambridge University Press, 2007. 391 p.
FIOL, G. D.; HAUG, P. J. Classification models for the prediction of clinicians' information
needs. Journal of Biomedical Informatics, v. 42, n. 1, p. 82-89, 2009. Disponível em:
<http://dx.doi.org/10.1016/j.jbi.2008.07.001>. Acesso em: 13 mar. 2009.
FORMAN, G. An extensive empirical study of feature selection metrics for text classification.
The Journal of Machine Learning Research, v. 3, p. 1289-1305, Mar., 2003. Disponível
em: <http://portal.acm.org/citation.cfm?id=944974>. Acesso em: 16 fev. 2009.
FRANZÉN, K. et al. Protein names and how to find them. International Journal of Medical
Informatics, v. 67, n. 1-3, p. 49-61, 2002. Disponível em: <http://dx.doi.org/10.1016/S1386-
5056(02)00052-7>. Acesso em: 12 mar. 2009.
FUKUDA, K. et al. Toward information extraction: identifying protein names from biological
papers. In: PACIFIC SYMPOSIUM ON BIOCOMPUTING (PSB), 3th, 1998, Hawaii.
Proceedings... 1998. p. 705-716. Disponível em: <http://psb.stanford.edu/psb-
online/proceedings/psb98/fukuda.pdf>. Acesso em: 24 fev. 2009.
GALIZA NETO, G. C. D.; PITOMBEIRA, M. D. S. Aspectos moleculares da anemia
falciforme. Jornal Brasileiro de Patologia e Medicina Laboratorial, v. 39, n. 1, p. 51-56,
2003. Disponível em: <http://dx.doi.org/10.1590/S1676-24442003000100011>. Acesso em:
18 fev. 2009.
GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information
growth through 2010. IDC Whitepaper, 2007. Disponível em:
<http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf>.
Acesso em: 14 maio 2009.
GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of
pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p.
S6, 2009. Suppl. 2. Disponível em: <http://dx.doi.org/10.1186/1471-2105-10-S2-S6>. Acesso
em: 12 mar. 2009.
GENETICS HOME REFERENCE. What is sickle cell disease? 2007. Disponível em:
<http://ghr.nlm.nih.gov/condition=sicklecelldisease>. Acesso em: 16 mar. 2009.
GHANEM, M. M. et al. Automatic scientific text classification using local patterns: KDD
CUP 2002 (task 1). ACM SIGKDD Explorations Newsletter, v. 4, n. 2, p. 95-96, 2002.
Disponível em: <http://doi.acm.org/10.1145/772862.772876>. Acesso em: 11 fev. 2009.
102
GULBIS, B. et al. Hydroxyurea for sickle cell disease in children and for prevention of
cerebrovascular events: the Belgian experience. Blood, v. 105, n. 7, p. 2685-2690, 2005.
Disponível em: <http://dx.doi.org/10.1182/blood-2004-07-2704>. Acesso em: 25 ago. 2008.
GUYON, I. et al. Gene selection for cancer classification using support vector machines.
Machine Learning, v. 46, n. 1-3, p. 389-422, 2002. Disponível em:
<http://dx.doi.org/10.1023/A:1012487302797>. Acesso em: 17 fev. 2009.
HAN, J.; KAMBER, M. Data mining: concepts and techniques. 2nd ed. San Francisco, CA:
Morgan Kaufmann, 2006. 743 p.
HANISCH, D. et al. ProMiner: rule-based protein and gene entity recognition. BMC
Bioinformatics, v. 6, p. S14, 2005. Suppl. 1. Disponível em:
<http://dx.doi.org/10.1186/1471-2105-6-S1-S14>. Acesso em: 26 fev. 2009.
HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE
ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park,
Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999.
p. 3-10. Disponível em: <http://dx.doi.org/10.3115/1034678.1034679>. Acesso em: 23 out.
2008.
______. What is text mining? 2003. Disponível em:
<http://people.ischool.berkeley.edu/~hearst/text-mining.html>. Acesso em: 23 out. 2008.
HEMORIO. Manual do paciente: anemia hemolítica hereditária I (Doença Falciforme). Rio
de Janeiro, RJ, 2005. 16 p. Disponível em:
<http://www.hemorio.rj.gov.br/Html/pdf/Manuais/Anemia_hemolitica_hereditaria_I.pdf>.
Acesso em: 30 out. 2008.
HIRSCHMAN, L. The evolution of evaluation: lessons from the Message Understanding
Conferences. Computer Speech & Language, v. 12, n. 4, p. 281-305, 1998. Disponível em:
<http://dx.doi.org/10.1006/csla.1998.0102>. Acesso em: 16 mar. 2009.
HIRSCHMAN, L.; MORGAN, A. A.; YEH, A. S. Rutabaga by any other name: extracting
biological names. Journal of Biomedical Informatics, v. 35, n. 4, p. 247-259, 2002.
Disponível em: <http://dx.doi.org/10.1016/S1532-0464(03)00014-5>. Acesso em: 13 mar.
2009.
HOTHO, A.; NÜRNBERGER, A.; PAASS, G. A brief survey of text mining. LDV Forum -
GLDV Journal for Computational Linguistics and Language Technology, v. 20, n. 1, p.
19-62, 2005. Disponível em: <http://www.kde.cs.uni-
kassel.de/hotho/pub/2005/hotho05TextMining.pdf>. Acesso em: 23 out. 2008.
HRISTOVSKI, D. et al. Exploiting semantic relations for literature-based discovery. In:
AMERICAN MEDICAL INFORMATICS ASSOCIATION (AMIA), 30th, 2006, Anchorage,
Alaska. Proceedings... 2006. p. 349-353. Disponível em:
<http://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=1839258>. Acesso em: 06 fev.
2009.
103
HU, Z. Z. et al. Literature mining and database annotation of protein phosphorylation using a
rule-based system. Bioinformatics, v. 21, n. 11, p. 2759-2765, 2005. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/bti390>. Acesso em: 23 fev. 2009.
IKONOMAKIS, M.; KOTSIANTIS, S.; TAMPAKAS, V. Text classification using machine
learning techniques. WSEAS Transactions on Computers, v. 4, n. 8, p. 966-974, 2005.
Disponível em:
<http://www.math.upatras.gr/~esdlab/en/members/kotsiantis/Text%20Classification%20final
%20journal.pdf>. Acesso em: 13 fev. 2009.
IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases
textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática
Computacional) – Instituto de Ciências Matemáticas e de Computação, Universidade de São
Paulo, São Carlos, 2001.
JACKSON, P.; MOULINIER, I. Natural language processing for online applications: text
retrieval, extraction and categorization. John Benjamins, 2002. 223 p.
JENSEN, L. J.; SARIC, J.; BORK, P. Literature mining for the biologist: from information
retrieval to biological discovery. Nature Reviews Genetics, v. 7, n. 2, p. 119-129, 2006.
Disponível em: <http://dx.doi.org/10.1038/nrg1768>. Acesso em: 24 fev. 2009.
JURAFSKY, D.; MARTIN, J. H. Speech and language processing: an introduction to
natural language processing, computational linguistics and speech recognition. Englewood
Cliffs, New Jersey: Prentice Hall, 2000. 950 p.
KANYA, N.; GEETHA, S. Information extraction - a text mining approach. In: IET-UK
INTERNATIONAL CONFERENCE ON INFORMATION AND COMMUNICATION
TECHNOLOGY IN ELECTRICAL SCIENCES (ICTES), 2007, Chennai, Tamilnadu, India.
Proceedings... 2007. p. 1111-1118. Disponível em:
<http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=4735960>. Acesso em: 10 mar. 2009.
KARANIKAS, H.; TJORTJIS, C.; THEODOULIDIS, B. An approach to text mining using
information extraction. In: EUROPEAN CONFERENCE ON PRINCIPLES AND
PRACTICE OF KNOWLEDGE DISCOVERY IN DATABASES (PKDD), 4th, 2000, Lyon,
France. Proceedings... 2000. p. 1-14. Disponível em: <http://eric.univ-
lyon2.fr/~pkdd2000/Download/WS5_13.pdf>. Acesso em: 22 set. 2008.
KATZ, B.; LIN, J. J.; FELSHIN, S. The START multimedia information system: current
technology and future directions. In: INTERNATIONAL WORKSHOP ON MULTIMEDIA
INFORMATION SYSTEMS (MIS), 2002, Tempe, Arizona. Proceedings... 2002. p. 117-123.
Disponível em:
<http://www.umiacs.umd.edu/~jimmylin/publications/Katz_etal_MIS2002.pdf>. Acesso em:
16 mar. 2009.
KAZAMA, J. I. et al. Tuning support vector machines for biomedical named entity
recognition. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE
BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown,
NJ: Association for Computational Linguistics, 2002. p. 1-8. Disponível em:
<http://dx.doi.org/10.3115/1118149.1118150>. Acesso em: 24 mar. 2009.
104
KIMBALL, R.; ROSS, M. The data warehouse toolkit. 2nd ed. New York: Wiley Computer
Publishing, 2002. 464 p.
KOHAVI, R. A study of cross-validation and bootstrap for accuracy estimation and model
selection. In: INTERNATIONAL JOINT CONFERENCES ON ARTIFICIAL
INTELLIGENCE (IJCAI), 14th, 1995, Montréal, Québec. Proceedings... Morgan Kaufmann,
1995. p. 1137-1145. Disponível em:
<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.48.529>. Acesso em: 13 fev. 2009.
KOU, Z.; COHEN, W. W.; MURPHY, R. F. High-recall protein entity recognition using a
dictionary. Bioinformatics, v. 21, p. i266-273, 2005. Suppl. 1. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/bti1006>. Acesso em: 23 mar. 2009.
KRAUTHAMMER, M.; NENADIC, G. Term identification in the biomedical literature.
Journal of Biomedical Informatics, v. 37, n. 6, p. 512-526, 2004. Disponível em:
<http://dx.doi.org/10.1016/j.jbi.2004.08.004>. Acesso em: 25 fev. 2009.
KRAUTHAMMER, M. et al. Using BLAST for identifying gene and protein names in journal
articles. Gene, v. 259, n. 1-2, p. 245-252, 2000. Disponível em:
<http://dx.doi.org/10.1016/S0378-1119(00)00431-5>. Acesso em: 24 mar. 2009.
LEFÈVRE, N. et al. Use of hydroxyurea in prevention of stroke in children with sickle cell
disease. Blood, v. 111, n. 2, p. 963-964, 2008. Disponível em:
<http://dx.doi.org/10.1182/blood-2007-08-102244>. Acesso em: 26 jan. 2009.
LEONARD, J. E.; COLOMBE, J. B.; LEVY, J. L. Finding relevant references to genes and
proteins in Medline using a Bayesian approach. Bioinformatics, v. 18, n. 11, p. 1515-1522,
Nov., 2002. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/18.11.1515>. Acesso
em: 24 fev. 2009.
LING, X. et al. Automatically generating gene summaries from biomedical literature. In:
PACIFIC SYMPOSIUM ON BIOCOMPUTING (PSB), 11th, 2006, Hawaii. Proceedings...
2006. p. 40-51. Disponível em: <http://psb.stanford.edu/psb-
online/proceedings/psb06/ling.pdf>. Acesso em: 11 fev. 2009.
LUO, Q. Advancing knowledge discovery and data mining. In: INTERNATIONAL
WORKSHOP ON KNOWLEDGE DISCOVERY AND DATA MINING, 2008, Adelaide,
Australia. Proceedings... IEEE Computer Society, 2008. p. 3-5. Disponível em:
<http://dx.doi.org/10.1109/WKDD.2008.153>. Acesso em: 10 dez. 2008.
MANNING, C. D.; RAGHAVAN, P.; SCHÜTZE, H. Introduction to information
retrieval. Cambridge: Cambridge University Press, 2008. 482 p. Disponível em:
<http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html>. Acesso em: 28 nov.
2008.
MANNING, C. D.; SCHÜTZE, H. Foundations of statistical natural language processing.
London, England: MIT Press, 1999. 680 p.
105
MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em
algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e
Matemática Computacional) – Instituto de Ciências Matemáticas e de Computação,
Universidade de São Paulo, São Carlos, 2003. Disponível em:
<http://www.teses.usp.br/teses/disponiveis/55/55134/tde-08032004-164855/>. Acesso em: 09
fev. 2009.
MATHIAK, B.; ECKSTEIN, S. Five steps to text mining in biomedical literature. In:
EUROPEAN WORKSHOP ON DATA MINING AND TEXT MINING IN
BIOINFORMATICS, 2nd, 2004. Proceedings... 2004. p. 47-50. Disponível em:
<http://www2.informatik.hu-berlin.de/Forschung_Lehre/wm/ws04/7.pdf>. Acesso em: 13
mar. 2009.
MCDONALD, R.; PEREIRA, F. Identifying gene and protein mentions in text using
conditional random fields. BMC Bioinformatics, v. 6, p. S6, 2005. Suppl. 1. Disponível em:
<http://dx.doi.org/10.1186/1471-2105-6-S1-S6>. Acesso em: 11 mar. 2009.
MCNAUGHT, J.; BLACK, W. J. Information extraction. In: ANANIADOU, S.;
MCNAUGHT, J. (Ed.). Text mining for biology and biomedicine. Norwood, MA: Artech
House, 2006. p. 143-178.
MEDICAL ENCYCLOPEDIA. Formed elements of blood. 2008. Disponível em:
<http://www.nlm.nih.gov/medlineplus/ency/imagepages/19192.htm>. Acesso em: 16 mar.
2009.
MHAMDI, F.; ELLOUMI, M. A new survey on knowledge discovery and data mining. In:
IEEE INTERNATIONAL RESEARCH CHALLENGES IN INFORMATION SCIENCE
(RCIS), 2nd, 2008, Marrakech, Morocco. Proceedings... 2008. p. 427-432. Disponível em:
<http://dx.doi.org/10.1109/RCIS.2008.4632134 >. Acesso em: 10 dez. 2008.
MIKA, S.; ROST, B. NLProt: extracting protein names and sequences from papers. Nucleic
Acids Research, v. 32, p. 634-637, 2004a. Suppl. 2. Disponível em:
<http://dx.doi.org/10.1093/nar/gkh427>. Acesso em: 25 fev. 2009.
______. Protein names precisely peeled off free text. Bioinformatics, v. 20, p. i241-247,
2004b. Suppl. 1. Disponível em: <http://dx.doi.org/10.1093/bioinformatics/bth904>. Acesso
em: 27 fev. 2009.
MINISTÉRIO DA SAÚDE. Anemia. 2004. Disponível em:
<http://bvsms.saude.gov.br/html/pt/dicas/69anemia.html>. Acesso em: 13 fev. 2009.
______. Doença falciforme e outras hemoglobinopatias: anemia falciforme. 2008.
Disponível em:
<http://portal.saude.gov.br/portal/saude/visualizar_texto.cfm?idtxt=27777&janela=1>.
Acesso em: 30 out. 2008.
MITCHELL, T. M. Machine learning. Boston: McGraw-Hill, 1997. 414 p.
MLADENIC, D.; GROBELNIK, M. Feature selection for unbalanced class distribution and
Naive Bayes. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING (ICML),
106
16th, 1999, Bled, Slovenia. Proceedings... Morgan Kaufmann, 1999. p. 258-267. Disponível
em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.31.2544>. Acesso em: 16 fev.
2009.
MOLLÁ, D.; VICEDO, J. L. Question answering in restricted domains: an overview.
Computational Linguistics, v. 33, n. 1, p. 41-61, 2007. Disponível em:
<http://www.ics.mq.edu.au/~diego/answerfinder/rdqa/CLQA07.pdf>. Acesso em: 16 mar.
2009.
MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. In:
REZENDE, S. O. (Ed.). Sistemas inteligentes: fundamentos e aplicações. São Carlos:
Manole, 2003. p. 89-114. cap. 4.
MONTALEMBERT, M. D. et al. Long-term hydroxyurea treatment in children with sickle
cell disease: tolerance and clinical outcomes. Haematologica, v. 91, n. 1, p. 125-128, 2006.
Disponível em: <http://www.haematologica.org/cgi/content/abstract/91/1/125>. Acesso em:
25 ago. 2008.
NADEAU, D.; SEKINE, S. A survey of named entity recognition and classification.
Linguisticae Investigationes, v. 30, n. 1, p. 3-26, 2007. Disponível em:
<http://nlp.cs.nyu.edu/sekine/papers/li07.pdf>. Acesso em: 24 fev. 2009.
NATARAJAN, J. et al. Text mining of full-text journal articles combined with gene
expression analysis reveals a relationship between sphingosine-1-phosphate and invasiveness
of a glioblastoma cell line. BMC Bioinformatics, v. 7, n. 1, p. 373, 2006. Disponível em:
<http://dx.doi.org/10.1186/1471-2105-7-373>. Acesso em: 16 mar. 2009.
______. GetItFull - a tool for downloading and pre-processing full-text journal articles. In:
KNOWLEDGE DISCOVERY IN LIFE SCIENCE LITERATURE (KDLL), 2006, Singapore.
Proceedings... Springer-Verlag, 2006. p. 139-145. Disponível em:
<http://dx.doi.org/10.1007/11683568_12>. Acesso em: 27 mar. 2009.
NATIONAL CENTER FOR BIOTECHNOLOGY INFORMATION. Entrez, the life
sciences search engine. 2009a. Disponível em: <http://www.ncbi.nlm.nih.gov/Entrez/>.
Acesso em: 26 mar. 2009.
______. PubMed. 2009b. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/>. Acesso
em: 16 mar. 2009.
NATIONAL INSTITUTE OF HEALTH. What is sickle cell anemia? 2008. Disponível em:
<http://www.nhlbi.nih.gov/health/dci/Diseases/Sca/SCA_WhatIs.html>. Acesso em: 06 fev.
2009.
NATIONAL LIBRARY OF MEDICINE. Fact Sheet: MEDLINE. 2008. Disponível em:
<http://www.nlm.nih.gov/pubs/factsheets/medline.html>. Acesso em: 16 mar. 2009.
NOBATA, C.; COLLIER, N.; TSUJII, J.-I. Automatic term identification and classification in
biology texts In: NATURAL LANGUAGE PACIFIC RIM SYMPOSIUM (NLPRS), 4th,
1999, Beijing, China. Proceedings... 1999. p. 369-374. Disponível em:
107
<http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.28.8384>. Acesso em: 26 fev.
2009.
ONO, T. et al. Automated extraction of information on protein-protein interactions from the
biological literature. Bioinformatics, v. 17, n. 2, p. 155-161, 2001. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/17.2.155>. Acesso em: 23 mar. 2009.
PARDO, T. A. S. DMSumm: um gerador automático de sumários. 103 f. Dissertação
(Mestrado em Ciência da Computação) – Departamento de Ciência da Computação,
Universidade Federal de São Carlos, São Carlos, 2002. Disponível em:
<http://www.icmc.usp.br/~taspardo/DISSERTATION-Pardo.pdf>. Acesso em: 17 mar. 2009.
PARDO, T. A. S.; RINO, L. H. M.; NUNES, M. D. G. V. GistSumm: a summarization tool
based on a new extractive method. In: MAMEDE, N. J. et al. (Ed.). Computational
processing of the portuguese language. 6th. Faro, Portugal: Springer, 2003. p. 210-218.
(Lecture Notes in Computer Science; v. 2721). Disponível em: <http://dx.doi.org/10.1007/3-
540-45011-4_34>. Acesso em: 17 mar. 2009.
PARK, J. C.; KIM, J.-J. Named entity recognition. In: ANANIADOU, S.; MCNAUGHT, J.
(Ed.). Text mining for biology and biomedicine. Norwood, MA: Artech House, 2006. p.
121-142.
PENDAR, N.; COTOS, E. Automatic identification of discourse moves in scientific article
introductions. In: INNOVATIVE USE OF NLP FOR BUILDING EDUCATIONAL
APPLICATIONS, 3th, 2008. Proceedings... Morristown, NJ: Association for Computational
Linguistics, 2008. p. 62-70. Disponível em: <http://www.aclweb.org/anthology-
new/W/W08/W08-0908.pdf>. Acesso em: 23 out. 2008.
RADEV, D. R.; HOVY, E.; MCKEOWN, K. Introduction to the special issue on
summarization. Computational Linguistics, v. 28, n. 4, p. 399-408, 2002. Disponível em:
<http://dx.doi.org/10.1162/089120102762671927>. Acesso em: 16 mar. 2009.
REBHOLZ-SCHUHMANN, D.; KIRSCH, H.; COUTO, F. Facts from text - is text mining
ready to deliver? PLoS Biology, v. 3, n. 2, p. e65, 2005. Disponível em:
<http://dx.doi.org/10.1371%2Fjournal.pbio.0030065>. Acesso em: 16 mar. 2009.
RODRIGUES, C. M. Hemopatias na gestação. 2008. Disponível em:
<http://www.paulomargotto.com.br/documentos/Hemopatias%20na%20Gesta%C3%A7%C3
%A3o.ppt>. Acesso em: 30 out. 2008.
RUIZ, M. A. Anemia falciforme: objetivos e resultados no tratamento de uma doença de
saúde pública no Brasil. Revista Brasileira de Hematologia e Hemoterapia, v. 29, n. 3, p.
203-204, 2007. Disponível em: <http://dx.doi.org/10.1590/S1516-84842007000300001>.
Acesso em: 29 jan. 2009.
SAYERS, E. W. et al. Database resources of the National Center for Biotechnology
Information. Nucleic Acids Research, v. 37, p. D5-15, 2009. Suppl. 1. Disponível em:
<http://dx.doi.org/10.1093/nar/gkn741>. Acesso em: 13 mar. 2009.
108
SCHUEMIE, M. J. et al. Evaluation of techniques for increasing recall in a dictionary
approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40,
n. 3, p. 316-324, 2007. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2006.09.002>. Acesso
em: 25 fev. 2009.
______. Distribution of information in biomedical abstracts and full-text publications.
Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/bth291>. Acesso em: 09 mar. 2009.
SEBASTIANI, F. Machine learning in automated text categorization. ACM Computing
Surveys, v. 34, n. 1, p. 1-47, 2002. Disponível em:
<http://doi.acm.org/10.1145/505282.505283>. Acesso em: 17 fev. 2009.
SEGAL, J. B. et al. Hydroxyurea for the treatment of sickle cell disease. Rockville, MD:
Agency for Healthcare Research and Quality, 2008, p. 1-298. (Evidence Report/Technology
Assessment, n. 165). Disponível em:
<http://www.ahrq.gov/downloads/pub/evidence/pdf/hydroxyurea/hydroxscd.pdf>. Acesso em:
26 jan. 2009.
SEKI, K.; MOSTAFA, J. An approach to protein name extraction using heuristics and a
dictionary. In: ANNUAL CONFERENCE OF THE AMERICAN SOCIETY FOR
INFORMATION SCIENCE AND TECHNOLOGY (ASIST), 2003, Long Beach, CA.
Proceedings... 2003. p. 1-7. Disponível em: <http://www.ai.cs.kobe-
u.ac.jp/~kseki/myarticles/seki2003asis.pdf>. Acesso em: 25 mar. 2009.
______. A hybrid approach to protein name identification in biomedical texts. Information
Processing & Management, v. 41, n. 4, p. 723-743, 2005. Disponível em:
<http://dx.doi.org/10.1016/j.ipm.2004.02.006>. Acesso em: 24 mar. 2009.
______. Discovering implicit association between genes and hereditary diseases. In: PACIFIC
SYMPOSIUM ON BIOCOMPUTING (PSB), 12th, 2007, Hawaii. Proceedings... 2007. p.
316-327. Disponível em: <http://psb.stanford.edu/psb-online/proceedings/psb07/seki.pdf>.
Acesso em: 11 fev. 2009.
SEKINE, S. Named entity: history and future. 2004. 5 p. Disponível em:
<http://cs.nyu.edu/~sekine/papers/NEsurvey200402.pdf>. Acesso em: 23 mar. 2009.
SILVA, P. P. ExtraWeb: um sumarizador de documentos Web baseado em etiquetas HTML
e ontologia. 158 f. Dissertação (Mestrado em Ciência de Computação) – Departamento de
Ciência da Computação, Universidade Federal de São Carlos, São Carlos, 2006. Disponível
em: <http://www.bdtd.ufscar.br/tde_busca/arquivo.php?codArquivo=1170>. Acesso em: 10
nov. 2008.
SILVA, R. B. P.; RAMALHO, A. S.; CASSORLA, R. M. S. A anemia falciforme como
problema de saúde pública no Brasil. Revista de Saúde Pública, v. 27, n. 1, p. 54-58, 1993.
Disponível em: <http://dx.doi.org/10.1590/S0034-89101993000100009>. Acesso em: 29 jan.
2009.
109
SPASIC, I. et al. Text mining and ontologies in biomedicine: making sense of raw text.
Briefings in Bioinformatics, v. 6, n. 3, p. 239-251, 2005. Disponível em:
<http://dx.doi.org/10.1093/bib/6.3.239>. Acesso em: 13 fev. 2009.
SRINIVASAN, P. Text mining: generating hypotheses from MEDLINE. Journal of the
American Society for Information Science and Technology, v. 55, n. 5, p. 396-413, 2004.
Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.4798>. Acesso
em: 22 ago. 2008.
STAVRIANOU, A.; ANDRITSOS, P.; NICOLOYANNIS, N. Overview and semantic issues
of text mining. SIGMOD Record, v. 36, n. 3, p. 23-34, 2007. Disponível em:
<http://doi.acm.org/10.1145/1324185.1324190>. Acesso em: 23 out. 2008.
STRANIERI, A.; ZELEZNIKOW, J. Knowledge discovery from legal databases.
Dordrecht, Netherlands: Springer, 2005. 294 p. (Law and Philosophy Library; v. 69).
STYLES, L. A. et al. Transfusion prevents acute chest syndrome predicted by elevated
secretory phospholipase A2. British Journal of Haematology, v. 136, n. 2, p. 343-344, 2007.
Disponível em: <http://dx.doi.org/10.1111/j.1365-2141.2006.06409.x>. Acesso em: 25 ago.
2008.
SUN MICROSYSTEMS. JavaTM
2 Platform: standard edition, v 1.4.2 API specification.
Disponível em: <http://java.sun.com/j2se/1.4.2/docs/api/>. Acesso em: 25 mar. 2009.
SWANSON, D.; SMALHEISER, N. An interactive system for finding complementary
literatures: a stimulus to scientific discovery. Artificial Intelligence, v. 91, p. 183-203, 1997.
Disponível em: <http://www.cs.cmu.edu/~sci-disc/Elsewhere/swanson.html>. Acesso em: 22
ago. 2008.
SWANSON, D. R. Fish oil, Raynaud's syndrome, and undiscovered public knowledge.
Perspectives in Biology and Medicine, v. 30, n. 1, p. 7-18, 1986.
______. Complementary structures in disjoint science literatures. In: ANNUAL
INTERNATIONAL ACM SIGIR CONFERENCE, 14th, 1991, Chicago, Illinois.
Proceedings... New York: ACM, 1991. p. 280-289. Disponível em:
<http://doi.acm.org/10.1145/122860.122889>. Acesso em: 06 out. 2008.
TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE
DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China.
Proceedings... PAKDD, 1999. p. 71-76. Disponível em:
<http://www3.ntu.edu.sg/home/asahtan/Papers/tm_pakdd99.pdf>. Acesso em: 23 out. 2008.
TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text.
Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/18.8.1124>. Acesso em: 11 fev. 2009.
______. Tagging gene and protein names in full text articles. In: WORKSHOP ON
NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002b,
Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational
110
Linguistics, 2002b. p. 9-13. Disponível em: <http://dx.doi.org/10.3115/1118149.1118151>.
Acesso em: 25 fev. 2009.
TSURUOKA, Y.; TSUJII, J. I. Improving the performance of dictionary-based approaches in
protein name recognition. Journal of Biomedical Informatics, v. 37, n. 6, p. 461-470, 2004.
Disponível em: <http://dx.doi.org/10.1016/j.jbi.2004.08.003>. Acesso em: 25 fev. 2009.
VAN RIJSBERGEN, C. J. Information retrieval. 2nd ed. Butterworth-Heinemann, 1979.
224 p. Disponível em: <http://www.dcs.gla.ac.uk/Keith/Preface.html>. Acesso em: 10 nov.
2008.
WEEBER, M. et al. Text-based discovery in biomedicine: the architecture of the DAD-
system. In: AMERICAN MEDICAL INFORMATICS ASSOCIATION (AMIA), 24th, 2000, Los
Angeles, CA. Proceedings... 2000. p. 903-907. Disponível em:
<http://www2.amia.org/pubs/symposia/D200133.PDF>. Acesso em: 22 ago. 2008.
______. Generating hypotheses by discovering implicit associations in the literature: a case
report of a search for new potential therapeutic uses for Thalidomide. Journal of the
American Medical Informatics Association, v. 10, n. 3, p. 252-259, 2003. Disponível em:
<http://dx.doi.org/10.1197/jamia.M1158>. Acesso em: 22 ago. 2008.
WITTEN, I. H.; FRANK, E. Data mining: pratical machine learning tools and techniques
with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p.
WU, J.-C. et al. Computational analysis of move structures in academic abstracts. In:
COLING/ACL ON INTERACTIVE PRESENTATION SESSIONS, 2006, Sydney, Australia.
Proceedings... Morristown, NJ: Association for Computational Linguistics, 2006. p. 41-44.
Disponível em: <http://dx.doi.org/10.3115/1225403.1225414>. Acesso em: 23 out. 2008.
WU, X. et al. Top 10 algorithms in data mining. Knowledge and Information Systems, v.
14, n. 1, p. 1-37, 2007. Disponível em: <http://dx.doi.org/10.1007/s10115-007-0114-2>.
Acesso em: 19 fev. 2009.
YANG, Y.; PEDERSEN, J. O. A comparative study on feature selection in text
categorization. In: INTERNATIONAL CONFERENCE ON MACHINE LEARNING
(ICML), 14th, 1997, San Francisco, CA. Proceedings... Morgan Kaufmann, 1997. p. 412-
420. Disponível em: <http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.32.9956>.
Acesso em: 16 fev. 2009.
YU, H. et al. Development, implementation, and a cognitive evaluation of a definitional
question answering system for physicians. Journal of Biomedical Informatics, v. 40, n. 3, p.
236-251, 2007. Disponível em: <http://dx.doi.org/10.1016/j.jbi.2007.03.002>. Acesso em: 16
mar. 2009.
ZAGO, M. A. Anemia falciforme e doenças falciformes. In: HAMANN, E.; TAUIL, P. (Ed.).
Manual de doenças mais importantes, por razões étnicas, na população brasileira afro-
descendente. Brasília: Ministério da Saúde, 2001. p. 13-35. Disponível em:
<http://bvsms.saude.gov.br/bvs/publicacoes/cd06_09.pdf>. Acesso em: 29 jan. 2009.
111
ZHANG, H. The optimality of Naive Bayes. In: INTERNATIONAL FLAIRS
CONFERENCE, 17th, 2004, Miami Beach, Florida. Proceedings... Menlo Park, CA: AAAI
Press, 2004. p. 562-567. Disponível em:
<http://www.cs.unb.ca/profs/hzhang/publications/FLAIRS04ZhangH.pdf>. Acesso em: 16
fev. 2009.
ZHOU, G. et al. Recognition of protein/gene names from text using an ensemble of
classifiers. BMC Bioinformatics, v. 6, p. S7, 2005. Suppl. 1. Disponível em:
<http://dx.doi.org/10.1186/1471-2105-6-S1-S7>. Acesso em: 11 mar. 2009.
______. Recognizing names in biomedical texts: a machine learning approach.
Bioinformatics, v. 20, n. 7, p. 1178-1190, 2004. Disponível em:
<http://dx.doi.org/10.1093/bioinformatics/bth060>. Acesso em: 25 fev. 2009.
ZWEIGENBAUM, P. et al. Frontiers of biomedical text mining: current progress. Briefings
in Bioinformatics, v. 8, n. 5, p. 358-375, 2007. Disponível em:
<http://dx.doi.org/doi:10.1093/bib/bbm045>. Acesso em: 13 fev. 2009.
112
GLOSSÁRIO
API: É uma interface de programação de aplicativos que oferece um conjunto de rotinas e
padrões estabelecidos.
Apositivo: Frase que altera e completa a palavra ou frase.
Baseline: É um ponto de partida que serve como limite inferior de referência.
Biomédico: O termo biomédico refere-se ao estudo da ligação entre a química e o
funcionamento do corpo humano. A ciência da biomedicina conduz estudos nas áreas da
medicina e biologia que são direcionadas a pesquisa das doenças humanas, com intuito de
encontrar causa, prevenção, diagnóstico e tratamento.
Farmacogenética: É o estudo das variações hereditárias em resposta a drogas e/ ou alterações
metabólicas.
Farmacogenômica: Pode ser caracterizada como um estudo generalista de todos os genes
que podem afetar o comportamento das drogas.
Gazetteers: Lista de lugar com nomes associados à localização geográfica.
Medical Subject Headings (MeSH): Amplo vocabulário controlado para publicações de
artigos e livros na ciência.
Ruído e Silêncio: É a informação desnecessária selecionada para treinamento que aumenta o
erro do classificador, diferentemente de Silêncio que é a característica importante que não foi
selecionada para treinamento.
Sentença e Frase: Sentença é uma palavra ou conjunto de palavras que constituem um
enunciado de sentido completo. O ponto final delimita uma sentença. Frase é uma unidade
bem menor do que a sentença. Pode ser sintagma (nominal, verbal, adverbial, etc.).
Variância: Medida que avalia o quanto os dados estão dispersos em relação à média
aritmética.
113
APÊNDICE A – MODELO EER
114
APÊNDICE B – MODELO RELACIONAL
PAPER Paper_ID, Paper_Title, Paper_Journal, Paper_Year, Authors, PDF, HTML, XML, Total_Patient, Concluded_Patient)
Paper_ID é auto_increment
Verificar inserção única de artigos (Paper_Title, Paper_Journal, Paper_Year)
SYMPTOM (Symptom_ID, Symptom_Name, Symptom_Acronym, Symptom_Desc)
Symptom_ID é auto_increment e SymptomName é unique
PAPER_SYMPTOM (Paper_ID, Symptom_ID, Page, Paragraph, Sentence, Patient_Number)
EFFECT (Effect_ID, Effect_Name, Effect_Acronym, Effect_Desc, Effect_Type)
Effect_ID é auto_increment, Effect_Name é unique e Effect_Type: Positive (Complication), Negative (Benefit)
PAPER_EFFECT (Paper_ID, Effect_ID, Page, Paragraph, Sentence, Patient_Number)
TREATMENT (Treatment_ID, Treatment_Name, Treatment_Acronym, Treatment_Desc, Treatment_Type)
Treatment_ID é auto_increment, Treatment_Name é unique e Treatment_Type: Drug, Therapy
PAPER_TREATMENT (Paper_ID, Treatment_ID, Page, Paragraph, Sentence, Patient_Number)
RISK_FACTOR (Risk_ID, Risk_Name, Risk_Acronym, Risk_Desc)
Risk_ID é auto_increment e Risk_Name é unique
115
APÊNDICE C – DIAGRAMA DE CLASSES