dissertacao-abordagem baseada em conceitos stanley loh

Upload: clebermd

Post on 14-Jul-2015

33 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMTICA PROGRAMA DE PS-GRADUAO EM COMPUTAO

Abordagem Baseada em Conceitos para Descoberta de Conhecimento em Textos

por STANLEY LOH

Tese submetida avaliao, como requisito parcial para a obteno do grau de Doutor em Cincia da Computao

Prof. Dr. Jos Palazzo Moreira de Oliveira orientador

Porto Alegre, Outubro de 2001.

2

Agradecimentoss Universidades Luterana do Brasil (ULBRA) e Catlica de Pelotas (UCPEL), pelo apoio e incentivo que me foram dados como professor destas instituies; Aos colegas do PPGC e aos colegas professores da ULBRA e UCPEL, pelo incentivo; Clnica Oliv Leite, por ter cedido os pronturios mdicos, os quais so objetos de pesquisa apoiada pelo Fundo de Incentivo ao Desenvolvimento do Ensino e da Pesquisa em Sade (FIDEPS, Ministrio da Sade); Ao pessoal da Clnica Oliv Leite, Dr. Fbio Leite Gastal, Dr. Srgio Oliv Leite e Dr. Srgio Andreolli, pelos comentrios e avaliaes feitas; Aos companheiros Leandro Krug Wives e Maurcio Almeida Gameiro, pelas valiosas discusses e pelo excelente trabalho cooperativo; Ao Prof. Mrio Ulyssea Capanema da UCPEL, por ter fornecido a coleo textual sobre estratgias agroalimentares; A meu orientador, Prof. Dr. Jos Palazzo Moreira de Oliveira, pela inestimvel contribuio neste trabalho, pelo incentivo pessoal e pela dedicao profissional; Ao saudoso Prof. Dr. Jos Mauro Volkmer de Castilho, o qual foi meu primeiro orientador neste curso de doutorado, mas a quem o destino no permitiu ver os frutos deste trabalho; A minha querida me Hilria, pela pacincia e incentivo; A minha esposa, Simone, que se negou para que eu alcanasse esta realizao (esta conquista tambm tua); A minha filhinha Ana Luza, que me deu mais motivao para esta realizao e iluminou ainda mais minha vida; A Jesus Cristo, meu senhor, que dirigiu minha vida at aqui (toda glria e todo louvor).

3

SumrioLista de Figuras............................................................................................................................................................4 Lista de Tabelas ...........................................................................................................................................................5 Resumo ..........................................................................................................................................................................6 Abstract ........................................................................................................................................................................7 1 Introduo .................................................................................................................................................................8 1.1 Estratgias e Tcnicas para Descoberta de Conhecimento em Textos .........................................................9 1.2 Estrutura desta Tese...........................................................................................................................................13 2 Trabalhos Correlatos e Problemas em Aberto....................................................................................................14 3 Objetivos da Tese...................................................................................................................................................17 4 Descoberta Baseada em Conceitos......................................................................................................................20 4.1 Representao de Conceitos .............................................................................................................................22 4.1.1 Modelo espao de vetores..............................................................................................................................22 4.1.2 Modelo contextual............................................................................................................................................23 4.2 Definio dos Conceitos ....................................................................................................................................24 4.3 Identificao dos Conceitos (Categorizao)..................................................................................................25 4.3.1 Mtodo baseado no espao de vetores........................................................................................................28 4.3.2 Mtodo contextual...........................................................................................................................................30 4.4 Minerao sobre Conceitos...............................................................................................................................31 5 Experimentos ...........................................................................................................................................................33 5.1 Domnio de Aplicao ........................................................................................................................................33 5.2 Coleo de Textos Usada...................................................................................................................................33 5.3 Conceitos Usados ...............................................................................................................................................34 5.4 Processo Padro para Descoberta de Conhecimento ....................................................................................35 5.5 Conhecimento Descoberto.................................................................................................................................36 5.5.1 Tcnica de anlise de distribuio.................................................................................................................36 5.5.2 Tcnica associativa..........................................................................................................................................38 5.6 Ambiente Computacional Usado nos Experimentos......................................................................................39 6 Resultados das Avaliaes Feitas .......................................................................................................................40 6.1 Avaliao dos Mtodos para Definio de Conceitos..................................................................................40 6.1.1 Observaes sobre os resultados..................................................................................................................44 6.2 Avaliao dos Mtodos de Categorizao......................................................................................................50 6.2.1 Conceitos gerais (classes do CID).................................................................................................................51 6.2.2 Conceitos especficos (caractersticas do paciente)...................................................................................55 6.2.3 Concluso das avaliaes ...............................................................................................................................58 6.3 Avaliao do Processo Padro de Identificao dos Conceitos..................................................................58 6.4 Avaliao Subjetiva do Conhecimento Descoberto ......................................................................................60 6.5 Avaliao Objetiva do Conhecimento Descoberto........................................................................................60 6.6 Comparao das Abordagens Baseada em Conceitos e Baseada em Palavras .........................................63 6.6.1 Classificao com mtodo Rocchio ...............................................................................................................64 6.6.2 Classificao com mtodo k-NN.....................................................................................................................65 6.6.3 Regras e explanao.........................................................................................................................................68 6.6.4 Concluses desta avaliao............................................................................................................................68 6.7 Avaliao de Agrupamento Baseado em Conceitos......................................................................................68 6.7.1 Comparao entre caractersticas (palavras e conceitos)..........................................................................70 6.7.2 Avaliao da descoberta de conhecimento..................................................................................................71 6.8 Avaliao da Descoberta Proativa....................................................................................................................72 6.8.1 Viabilidade da Descoberta Proativa...............................................................................................................74 6.8.2 Estratgias para descoberta proativa ............................................................................................................74 6.8.3 Importncia da interveno humana e de conhecimentos prvios...........................................................76 7 Aplicaes da Abordagem Proposta...................................................................................................................78 7.1 Anlise Qualitativa e Quantitativa de Documentao Textual.....................................................................78 7.2 Formalizao e Explorao de Conhecimento Tcito .....................................................................................80 7.3 Construo de Sistemas Automatizados de Apoio Deciso ......................................................................81 7.4 Classificao e Recuperao de Documentos Textuais .................................................................................81

4

7.5 Inteligncia Competitiva.....................................................................................................................................82 7.5.1 Estratgias agroalimentares no MERCOSUL...............................................................................................82 7.5.2 Marketing Poltico............................................................................................................................................83 7.5.3 Benchmarking de ferramentas de KDD e de KDT........................................................................................83 7.6 Inteligncia do Negcio......................................................................................................................................83 7.7 Descoberta em Documentos da Web...............................................................................................................86 7.8 Outras Aplicaes Possveis .............................................................................................................................87 8 Consideraes Finais .............................................................................................................................................89 8.1 Contribuies .......................................................................................................................................................91 8.2 Vantagens da Proposta.......................................................................................................................................92 8.3 Limitaes e Cuidados no Uso da Abordagem...............................................................................................93 8.4 Trabalhos Futuros...............................................................................................................................................95 Anexos ........................................................................................................................................................................96 Anexo 1 Exemplos de Pronturios...........................................................................................................................97 Anexo 2 Produo Cientfica ...................................................................................................................................99 Anexo 3 Artigos completos ...................................................................................................................................101 Bibliografia................................................................................................................................................................102

5

Lista de FigurasFIGURA 4.1 - Estrutura geral do processo de KDT .............................................................................................20 FIGURA 5.1 - Conceitos mais freqentes na coleo toda .................................................................................37 FIGURA 5.2 - Regras associativas comuns aos 4 diagnsticos.........................................................................38 FIGURA 5.3 - Regras associativas exclusivas da classe substncias ...............................................................38 FIGURA 5.4 - Regras associativas exclusivas da classe esquizofrenia.............................................................38 FIGURA 5.5 - Regras associativas exclusivas da classe orgnicos...................................................................39 FIGURA 5.6 - Regras associativas exclusivas da classe afetivos......................................................................39 FIGURA 6.1 - Conceito substncias segundo o mtodo 2c............................................................................51 FIGURA 6.2 - Conceito substncias segundo o mtodo 4a............................................................................52 FIGURA 6.3 - Conceito substncias segundo o mtodo 4b ...........................................................................53 FIGURA 6.4 - Conceito alcoolismo segundo o mtodo espao de vetores..................................................56 FIGURA 6.5 - Conceito alcoolismo segundo o mtodo contextual................................................................56 FIGURA 6.6 Frmula da funo de similaridade entre dois textos..................................................................66 FIGURA 6.7 - Clculo do grau de igualdade entre pesos de termos comuns...................................................66 FIGURA 7.1 - Alguns padres descobertos na coleo toda.............................................................................78 FIGURA 7.2 - Padres para o diagnstico de esquizofrenia ...............................................................................79 FIGURA 7.3 - Padres para o diagnstico de distrbios afetivos .....................................................................80 FIGURA 7.4 - Padres descobertos na coleo toda ...........................................................................................84 FIGURA 7.5 - Padres por tipo de pacote..............................................................................................................85 FIGURA 7.6 - Padres por canal preferido.............................................................................................................85

6

Lista de TabelasTABELA 3.1 - Objetivos deste trabalho ................................................................................................................18 TABELA 6.1 - Tempo de categorizao e nmero de termos por mtodo........................................................42 TABELA 6.2 - Resultados com a coleo de treino .............................................................................................43 TABELA 6.3 - Textos associados a nenhuma categoria (coleo de treino)...................................................45 TABELA 6.4 - Resultados com a coleo de teste...............................................................................................46 TABELA 6.5 - Textos associados a nenhuma categoria (coleo de teste).....................................................47 TABELA 6.6 - Resultado 1a por maior peso (coleo de teste).........................................................................49 TABELA 6.7 - Resultado 1b por maior peso (coleo de teste).........................................................................49 TABELA 6.8 - Resultado 1a por maior peso (coleo de treino)........................................................................49 TABELA 6.9 - Resultado 1b por maior peso (coleo de treino).......................................................................49 TABELA 6.10 - Resultado 1a por limiar 0,0012 (coleo de treino)....................................................................50 TABELA 6.11 - Resultado 1b por limiar 0,0012 (coleo de treino)...................................................................50 TABELA 6.12 - Resultado 1a por limiar 0,0014 (coleo de treino)....................................................................50 TABELA 6.13 - Resultado 1b por limiar 0,0014 (coleo de treino)...................................................................50 TABELA 6.14 - Tempo aproximado de categorizao na coleo de treino e nmero de termos por mtodo .............................................................................................................................................................................53 TABELA 6.15 - Mtodo espao de vetores X contextual (coleo de treino).................................................53 TABELA 6.16 - Textos associados a nenhuma categoria (coleo de treino).................................................53 TABELA 6.17 - Mtodo espao de vetores X contextual (coleo de teste)...................................................55 TABELA 6.18 - Textos associados a nenhuma categoria (coleo de teste)...................................................55 TABELA 6.19 - Comparao de mtodos sobre conceitos especficos (espao de vetores X contextual) 56 TABELA 6.20 - Resultados do mtodo espao de vetores, limiar zero, para cada conceito..........................56 TABELA 6.21 - Resultados do mtodo contextual para cada conceito ............................................................57 TABELA 6.22 - Medidas de avaliao do processo padro de identificao de conceitos especficos.....58 TABELA 6.23 - Resultados dos mtodos baseados em conceitos (coleo de teste) ...................................62 TABELA 6.24 - Resultados dos mtodos baseados em conceitos X palavras usando Rocchio (coleo de teste)...................................................................................................................................................................64 TABELA 6.25 - Textos associados a nenhuma categoria usando Rocchio (coleo de teste).....................64 TABELA 6.26 - Resultados dos mtodos baseados em conceitos X palavras usando Rocchio (coleo de treino).................................................................................................................................................................65 TABELA 6.27 - Resultados dos mtodos baseados em conceitos X palavras usando k-NN (coleo de teste)...................................................................................................................................................................67 TABELA 6.28 - Textos associados a nenhuma categoria usando k-NN (coleo de teste)..........................67 TABELA 6.29 - Tempo de classificao usando k-NN (coleo de teste)........................................................67 TABELA 6.30 - Comparao de mtodos de agrupamento (extrado de [SAR2000]) .....................................70 Tabela 8.1 - Objetivos alcanados e resultados....................................................................................................90

7

ResumoEsta tese apresenta uma abordagem baseada em conceitos para realizar descoberta de conhecimento em textos (KDT). A proposta identificar caractersticas de alto nvel em textos na forma de conceitos, para depois realizar a minerao de padres sobre estes conceitos. Ao invs de aplicar tcnicas de minerao sobre palavras ou dados estruturados extrados de textos, a abordagem explora conceitos identificados nos textos. A idia analisar o conhecimento codificado em textos num nvel acima das palavras, ou seja, no analisando somente os termos e expresses presentes nos textos, mas seu significado em relao aos fenmenos da realidade (pessoas, objetos, entidades, eventos e situaes do mundo real). Conceitos identificam melhor o contedo dos textos e servem melhor que palavras para representar os fenmenos. Assim, os conceitos agem como recursos meta-lingsticos para anlise de textos e descoberta de conhecimento. Por exemplo, no caso de textos de psiquiatria, os conceitos permitiram investigar caractersticas importantes dos pacientes, tais como sintomas, sinais e comportamentos. Isto permite explorar o conhecimento disponvel em textos num nvel mais prximo da realidade, minimizando o problema do vocabulrio e facilitando o processo de aquisio de conhecimento. O principal objetivo desta tese demonstrar a adequao de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hiptese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, foram definidas estratgias para identificao dos conceitos nos textos e para minerao de padres sobre estes conceitos. Diferentes mtodos foram avaliados para estes dois processos. Ferramentas automatizadas foram empregadas para aplicar a abordagem proposta em estudos de casos. Diferentes experimentos foram realizados para demonstrar que a abordagem vivel e apresenta vantagens sobre os mtodos baseados em palavras. Avaliaes objetivas e subjetivas foram conduzidas para confirmar que o conhecimento descoberto era de qualidade. Tambm foi investigada a possibilidade de se realizar descobertas proativas, quando no se tem hipteses iniciais. Os casos estudados apontam as vrias aplicaes prticas desta abordagem. Pode-se concluir que a principal aplicao da abordagem permitir anlises qualitativa e quantitativa de colees textuais. Conceitos podem ser identificados nos textos e suas distribuies e relaes podem ser analisadas para um melhor entendimento do contedo presente nos textos e, conseqentemente, um melhor entendimento do conhecimento do domnio. Palavras-chave: descoberta de conhecimento, anlise de textos, text mining, descoberta de conhecimento em textos

8

AbstractTITLE: CONCEPT-BASED APPROACH FOR KNOWLEDGE DISCOVERY IN TEXTS This thesis presents a concept-based approach for performing knowledge discovery in texts (KDT). The purpose is to identify high-level textual characteristics and after that to perform a mining process for discovering patterns in the textual collection. Instead of applying mining techniques over keywords or structured data extracted from texts, the approach explores concepts. Concepts represent text content better than words, minimizing the vocabulary problem. Performing the analysis over concepts allows to understand the meaning of terms and expressions and thus the phenomena referenced by the texts (people, objects, events, entities, situations, etc.). That allows to analyze the knowledge codified in texts in a way closer to the reality. Thus, the knowledge acquisition process requires less effort. The main goal of this thesis is to demonstrate that a concept-based approach is suitable for knowledge discovery in texts and has advantages over keyword-based approaches. The work defined a strategy for identifying concepts in texts and for mining patterns over the concepts. Different methods were analyzed and the best ones were embedded in automated tools. Some experiments were carried out and subjective and objective evaluations were conducted to validate the quality of the discovered knowledge and the advantage of the concept-based approach. The thesis also investigated the proactive discovery, when there is no initial hypothesis. The approach was applied in different domains to show its practical benefits. The main conclusion is that the approach is useful to perform qualitative and quantitative analyses of textual collections. Concepts identified in the texts and patterns over concepts help to understand the content of the collection and thus imply in a better understanding of the domain knowledge. Keywords: knowledge discovery, textual analysis, text mining, knowledge discovery in texts

9

1 IntroduoCom o crescente uso de computadores, cada vez mais documentos eletrnicos esto sendo armazenados e colocados disposio das pessoas. Em sua grande maioria, estes documentos contm informaes codificadas em forma textual, tais como dicionrios, manuais, enciclopdias, guias e mensagens de correio eletrnico. Estudos recentes afirmam que 80% da informao de uma companhia esto contidos em documentos textuais [TAN99]. Toda esta documentao textual possui muito conhecimento implcito, que pode ser explorado de alguma forma [BOW96]. Davies [DAV89] afirma que muito conhecimento que nunca foi formalizado explicitamente ou mesmo implicitamente pode ser inferido do que j foi publicado. O mesmo autor compara a biblioteca de hoje (um armazm de objetos passivos) com a biblioteca do futuro, a qual poder fornecer ao usurio conexes desconhecidas, fazer associaes e analogias, sugerir conceitos remotos ou novos, descobrir novos mtodos, teorias, medidas, etc. Entretanto, encontrar tal conhecimento uma tarefa rdua. Existem tcnicas e ferramentas para Recuperao de Informao (RI), as quais auxiliam as pessoas a encontrar documentos que contenham informaes relevantes [SPA97]. Entretanto, necessrio examinar os documentos resultantes para encontrar a informao desejada. A dificuldade vem do fato de que documentos so insatisfatrios como respostas, por serem grandes e difusos em geral [WIR94]. Alm disto, ferramentas de RI costumam produzir como resposta uma quantidade muito grande de documentos, causando a chamada sobrecarga de informaes (information overload), que acontece quando o usurio tem muita informao ao seu alcance, mas no tem condies de trat-la ou de encontrar o que realmente deseja ou lhe interessa [CHH94]. A evoluo da rea de Recuperao de Informao teve como conseqncia o surgimento da rea de Descoberta de Conhecimento em Textos ( Knowledge Discovery from Text- KDT). O termo foi utilizado pela primeira vez por Feldman e Dagan [FEL95] para designar o processo de encontrar algo interessante em colees de textos (artigos, histrias de revistas e jornais, mensagens de e-mail, pginas Web, etc.). Hoje em dia, sinnimos como Text Mining ou Text Data Mining tambm so utilizados para o mesmo fim [TAN99]. Pode-se ento definir Descoberta de Conhecimento em Textos (KDT) ou Text Mining como sendo o processo de extrair padres ou conhecimento, interessantes e notriviais, a partir de documentos textuais [TAN99]. Assim, ao invs de encontrar os textos que contenham informaes e deixar que o usurio mesmo procure o que lhe interessa, a nova rea se preocupa em encontrar informaes dentro dos textos e trat-las de forma a apresentar ao usurio algum tipo de conhecimento til e novo. Mesmo que tal conhecimento novo no seja a resposta direta s indagaes do usurio, ele deve contribuir para satisfazer as necessidades de informao do usurio. Segundo Tan [TAN99] e Feldman e Dagan [FEL95], o processo de KDT pode ser realizado aplicando-se tcnicas de Descoberta de Conhecimento em Bancos de Dados (Knowledge Discobery in Databases - KDD) sobre dados extrados de textos (no necessariamente valores numricos, mas podendo ser tambm valores nominais, como

10

palavras do texto). Entretanto, KDT no inclui somente a aplicao das tcnicas tradicionais de KDD, mas tambm qualquer tcnica nova ou antiga que possa ser aplicada no sentido de encontrar conhecimento em qualquer tipo de texto. Outros autores pesquisam o mesmo problema h tempos, mas usando termos diferentes. Oard [OAR96], por exemplo, utiliza um termo mais amplo Busca de Informao (Information Seeking) para descrever qualquer processo pelo qual usurios procuram obter informao a partir de sistemas de informao automatizados, incluindo a busca de informaes em textos. Chen [CHE93] cita alguns autores que usam o termo Conhecimento Pblico No-Descoberto ( ndiscovered Public Knowledge). Lewis [LEW96] utiliza o U termo Recuperao de Conhecimento (Knowledge Retrieval), que difere de recuperao de documentos e de recuperao de dados, porque usa menos pr-codificao e requer mais poder de inferncia. Na seo seguinte, as tcnicas para KDT sero discutidas. As aplicaes de sistemas de KDT so inmeras. Qualquer domnio que utilize intensivamente textos podero beneficiar-se destes sistemas, tal como as reas jurdicas e policiais, os cartrios e rgos de registros, empresas em geral, etc.

1.1 Estratgias e Tcnicas para Descoberta de Conhecimento em Textos Tan [TAN99] apresenta um esquema para realizar descoberta de conhecimento em textos. Segundo este esquema, os textos seriam transformados para formas intermedirias (etapa denominada de text refining), as quais posteriormente seriam analisadas para a minerao de padres (etapa de knowledge distillation). Tan sugere que h dois tipos de formas intermedirias possveis: um tipo baseado no documento (document-based) e outro em conceitos (concept-based). No primeiro caso, cada entidade presente no formato intermedirio representa um documento, independente do domnio. J no segundo caso, entidades representam objetos ou conceitos de um domnio e conforme interesses especficos. Segundo Tan, possvel tambm transformar formatos baseados em documentos para formatos baseados em conceitos (um processo chamado de extrao, segundo o referido autor). Segundo o esquema de Tan, o processo de minerao envolve descobrir padres e relacionamentos entre (a) documentos, no primeiro caso, e entre (b) objetos ou conceitos, no segundo caso. Para cada tipo de minerao, Tan sugere algumas tcnicas bsicas: (a) agrupamento (clustering), categorizao e visualizao e (b) modelagem preditiva e descoberta associativa. A seguir, sero apresentadas rapidamente vrias abordagens ou tcnicas para descoberta de conhecimento em textos (estas abordagens so discutidas com mais detalhes em [LOH99]). Os nomes utilizados servem apenas para diferenciar as abordagens, portanto nem sempre correspondem aos termos utilizados na literatura, nem seguem uma classificao previamente estabelecida pela comunidade cientfica. A tcnica mais bsica e mais usada para KDT a recuperao de informao (RI), que se limita a encontrar documentos ou textos onde informaes relevantes possam estar. Sparck-Jones e Willet [SPA97] apresentam artigos clssicos sobre este tema. Conforme Chen [CHE93], a RI parte de um processo maior de explorao, correlao e sntese de informao. As tcnicas de RI podem ajudar apresentando documentos com viso geral das informaes ou assuntos (RI tradicional) ou apresentando partes de documentos

11

com detalhes de informaes (recuperao por passagens). Tambm as ferramentas de RI por filtragem contribuem garimpando documentos interessantes para o usurio, sem que este precise formular consultas. Outra tcnica bsica a categorizao de textos, cujo objetivo associar categorias (assuntos, classes ou temas) pr-definidas a textos livres [YAN99]. H muitos trabalhos neste rea, apresentando diversos mtodos para categorizao de textos [APT94] [COH96] [YAN94] [LID94]. Yang e outros [YAN97] [YAN99] fazem anlises de vrios mtodos de categorizao. Mas tambm h a preocupao com a escolha das caractersticas textuais que sero usadas no mtodo. Yang e Pedersen [YAN97] comparam mtodos para fazer esta seleo. Em geral, os trabalhos de categorizao de textos procuram encontrar o tema central de um texto (ou temas, se houver mais de um). Tambm clssica a tcnica de Extrao de Informao (EI), cujo objetivo encontrar informaes especficas dentro dos textos (conforme Sparck-Jones e Willet [SPA97]). Riloff e Lehnert [RIL94] afirmam que o objetivo da rea de EI diferente do objetivo da rea de processamento de linguagem natural (PLN), porque mais focado e mais bem definido, visando extrair tipos especficos de informao. A tcnica de EI procura converter dados no-estruturados em informaes explcitas, geralmente armazenadas em bancos de dados estruturados. Isto pode ser feito i olando-se partes relevantes do texto, s extraindo informao destas partes e transformando-as em informaes mais digeridas e melhor analisadas (conforme Cowie e Lehnert [COW96]). Em geral, os mtodos utilizados so direcionadas para extrair caractersticas do domnio (objetos, entidades, relaes), servindo apenas para aplicaes especficas (conforme Croft [CRO95]). A abordagem de Descoberta Tradicional aps Extrao a mais simples, pois utiliza tcnicas j testadas e consagradas. Nesta abordagem, os dados so extrados dos textos e formatados em bases de dados estruturadas, com o auxlio de tcnicas de Extrao de Informaes (EI). Depois, so aplicadas tcnicas e algoritmos de KDD (minerao de dados estruturados), para descobrir conhecimento til para o usurio . A abordagem de descoberta por Extrao de Passagens designa um tipo de descoberta situado entre a recuperao de informaes por passagens e a extrao de informaes. Esta nova abordagem visa encontrar informaes especficas, mas de forma um pouco mais independente de domnio do que as ferramentas tradicionais de extrao. Esta abordagem difere da Extrao de Informao pois permite ao usurio levantar hipteses e formas de procura de informaes em tempo de execuo, no sendo necessrio um grande esforo de engenharia do conhecimento (para definir as formas de procura, por exemplo os tags), nem um profundo conhecimento prvio do texto e de sua estrutura. A descoberta por extrao de passagens auxilia usurios a encontrar detalhes de informao, sem que este precise ler todo texto. Entretanto, ainda assim, necessrio que o usurio leia e interprete as partes do texto que forem recuperadas para extrair a informao desejada. Grobelnik e outros [GRO2000] citam a ferramenta automatizada (workbench) de Caruana e Hodor para auxiliar especialistas humanos na extrao de informaes. A ferramenta permite combinar a preciso do trabalho humano com tarefas em larga escala. No trabalho citado, especialistas humanos revisaram 5.000 documentos em uma tarde e extraram informaes com preciso e abrangncia maiores que 99,9%. A abordagem por Anlise Lingstica procura descobrir informaes e regras analisando sentenas da linguagem a nvel lxico, morfolgico, sinttico e semntico. Ambrosio e outros [AMB97], por exemplo, descobrem generalizaes escondidas,

12

analisando padres sintticos (tags). Lascarides e outros [LAS92] e Hobbs [HOB79] relatam pesquisas sobre inferncias de relaes de coerncia em textos (por exemplo, causa e efeito), tambm utilizando tags. Os trabalhos apresentados em [LAS92], [HWA92], [KAM93] e [WEB88] inferem relaes de tempo analisando textos. Bowden e outros [BOW96] descobrem relaes conceituais (definies, exemplos, parties e composio) atravs de tags no texto. A descoberta por Anlise de Contedo semelhante aos dois tipos anteriores, pois investiga lingisticamente os textos e apresenta ao usurio informaes sobre o seu contedo. Entretanto, a diferena para a descoberta por anlise lingstica que, na anlise de contedo, h maior esforo no tratamento semntico dos textos, passando o limite lxico-sinttico. Em relao extrao de passagens, a diferena que, aqui, o objetivo encontrar o significado do texto pretendido pelo autor ao invs de partes ou informaes especficas. Por exemplo, Saggion e Carvalho [SAG95] utilizam tcnicas que analisam a estrutura de resumos ou sumrios, identificando informaes por palavras-chave, tais como hipteses, concluses, experimentos, etc. Em [WIE94], h estudos sobre descoberta de crenas e intenes em dilogos, por inferncias sobre palavras-chave (tags). A abordagem de descoberta por Sumarizao ou resumos utiliza as tcnicas dos tipos anteriores, mas com nfase maior na produo do resumo ou sumrio. Segundo SparckJones e Willet [SPA97], sumarizao a abstrao das partes mais importantes do contedo do texto. Miike e outros [MII94] apresentam um trabalho de gerao automtica de resumos em tempo de execuo atravs de interaes com o usurio. J McKeown e Radev [MCK95] apresentam tcnicas e ferramentas para analisar diversos artigos sobre um mesmo evento e criar um resumo em linguagem natural. Em [HER95] apresentada uma ferramenta para sumarizao com dois componentes principais: um planejador de contedo (que seleciona informaes de uma base de slots) e um componente lingstico (para gerar as frases de sada em linguagem natural). J a descoberta por Associao entre Passagens busca encontrar automaticamente conhecimento e informaes relacionadas no m esmo texto ou em textos diferentes. Sua aplicao imediata est na definio automtica de links nos sistemas de hipertexto. Entretanto, a vantagem deste tipo de descoberta apresentar ao usurio partes de textos que tratam do mesmo assunto especfico (detalhe de informao e no contedo geral). Na descoberta por Listas de Conceitos-Chave, a idia apresentar uma lista com os conceitos principais de um nico texto (geralmente, os conceitos so termos ou expresses extrados por anlises estatsticas). Moscarola e outros [MOS98], por exemplo, sugerem uma lista de termos prximos (antes e depois), os quais permitem a anlise do contedo por quase-frases. Outros exemplos so a tcnica de afinidades lxicas discutida em [MAA92] e a tcnica dos relacionamentos semnticos apresentada em [SPA97]. A descoberta de Estruturas de Textos segue a premissa da coeso lxica, segundo a qual, determinar a estrutura de um texto ajuda a entender seu significado [MOJ91]. Um texto no um conjunto aleatrio de frases, mas deve haver uma unidade e tambm coeso, com as frases funcionando juntas para a funo do todo. A coeso pode ser analisada pelas referncias, conjunes e relaes semnticas presentes no texto. A descoberta por Agrupamento (clustering) procura separar automaticamente elementos em grupos por afinidade ou similaridade (no h classes pr-definidas). A tcnica de agrupamento diferente da classificao, pois a primeira visa criar as classes atravs da organizao dos elementos, enquanto que a segunda procura alocar elementos em classes j

13

pr-definidas (conforme Willet [WIP88]). O agrupamento auxilia o processo de descoberta de conhecimento, facilitando a identificao de padres (caractersticas comuns dos elementos) nas classes. Geralmente, a tcnica de agrupamento vem associada com alguma tcnica de descrio de conceitos, para identificar os atributos de cada classe. Esta posterior identificao das classes atravs de suas caractersticas chamada de anlise da classe (cluster analysis), conforme Willet [WIP88], e gera uma nova abordagem de descoberta: a descoberta por Descrio de Classes de Textos. Dada uma classe de documentos textuais (j previamente agrupados) e uma categoria associada a esta classe (por exemplo, tema ou assunto dos textos), a descoberta por descrio procura encontrar as caractersticas principais desta classe. Estas caractersticas permitem identificar os elementos que pertencem classe e distingui-los dos elementos de outras classes. Esta abordagem segue geralmente as tcnicas para construo do centride de classes. Ela diferente da abordagem por listas de conceitos-chave, porque descobre caractersticas comuns em vrios textos e no em um nico texto. A abordagem de descoberta por Associao entre Textos procura relacionar descobertas presentes em vrios textos diferentes. As descobertas esto presentes no contedo ou no significado dos textos. Esta abordagem diferente do que acontece na descoberta por associao entre passagens, cujo objetivo somente relacionar partes de textos sobre o mesmo assunto. Na associao entre textos, a interpretao semntica fundamental. Swanson [SWA97] comenta que o conhecimento novo pode emergir de inmeros fragmentos individualmente no-importantes, sem relao no momento em que foram elaborados ou adquiridos. Por exemplo, Swanson e Smalheiser [SWA97b] fizeram descobertas na rea mdica relacionando textos que no se referenciam e que aparentemente no continham assuntos comuns. Em [MCK95], apresentada uma ferramenta que analisa diversos artigos sobre um mesmo evento e cria um resumo nico em linguagem natural. So extradas informaes de partes dos textos e analisadas para encontrar similaridades e diferenas de informaes. Davies [DAV89] acredita que existe muita informao publicada e conhecida, mas que algumas concluses a partir destas informaes s podero ser descobertas recuperando estes documentos e notando as conexes lgicas entre eles. A descoberta por Associao entre Caractersticas procura relacionar tipos de informao (atributos) presentes em textos, aplicando a tcnica de correlao ou associao tradicional em KDD diretamente sobre partes do texto. Uma das diferenas que os valores para os atributos so partes do texto e no necessariamente dados extrados por tcnicas de extrao de informaes. Feldman e Dagan [FEL98], por exemplo, marcam documentos textuais com palavras-chave tomadas de um vocabulrio controlado, organizado em estruturas hierrquicas de tpicos. Ferramentas de descoberta procuram encontrar padres na coleo de documentos por anlise de distribuies de palavras-chave. Feldman e Hirsh [FEL97] tambm discutem a descoberta de associaes (padres de co-ocorrncia) entre termos que marcam textos. A abordagem de descoberta por Hipertextos um caso especial de descoberta utilizando tcnicas de recuperao de informaes (no caso, o modelo de hipertextos). Nesta abordagem, a descoberta exploratria e experimental, feita atravs de mecanismos de navegao (browsing), conforme comentam Marchionini e Shneiderman [MAR88]. Com tais ferramentas, possvel expandir e comparar o conhecimento atravs dos links que relacionam as informaes, funcionando de modo anlogo mente humana (memria

14

associativa). A aprendizagem pode ocorrer acidentalmente e de forma cumulativa, no exigindo estratgias cognitivas. A criatividade e a curiosidade guiam tal processo. Segundo Morgado [MOL98], hipertextos possibilitam a criao de ambientes onde o utilizador pode experimentar um certo grau de autonomia enquanto navega na informao, o que contribui sem dvida para que se expressem estratgias individuais de aprendizagem, sendo o sujeito responsvel pelo seu prprio processo de aprendizagem. A abordagem por Manipulao de Formalismos procura representar o contedo dos textos em formalismos (como a lgica de predicados, por exemplo). Assim, mecanismos de manipulao simblica podem inferir novos conhecimentos, simplesmente por transformaes na forma. As representaes resultantes podem ser depois transformadas para estruturas na linguagem natural, facilitando a compreenso de usurios leigos no formalismo. As tcnicas de deduo, comuns na rea de Inteligncia Artificial, executam bem este trabalho. No mesmo sentido, a abordagem de descoberta por Combinao de Representaes faz uso de representaes de textos. Os formalismos internos podem ser modelos conceituais ou tradicionais (por exemplo, o modelo relacional) ou ontologias, linguagens baseadas em lgica, etc. Um exemplo o trabalho de Croft e Turtle [CRO92], que compara grafos (representando, por exemplo, estruturas sintticas de textos ou contedos mais complexos), os quais so combinados por elementos comuns, gerando um grafo novo, hiptese de novos conhecimentos. Por fim, as tcnicas de visualizao e navegao permitem analisar grupos de textos usando representaes grficas. Tan [TAN99] discute ferramentas que apresentam documentos e relacionamentos atravs de agrupamentos visuais, mapas bi ou tridimensionais, conexes grficas e outras estruturas complexas.

1.2 Estrutura desta Tese Este documento est estruturado como descrito a seguir. O captulo 2 apresenta os principais trabalhos relacionados ao tema da tese e discute alguns problemas ainda no adequadamente resolvidos. O captulo 3 apresenta os objetivos da tese, descrevendo tambm as atividades propostas e os resultados esperados para cada objetivo. No captulo 4, descrita a proposta de abordagem baseada em conceitos, bem como sua fundamentao terica atravs de trabalhos relacionados e solues similares de outras reas. Aps, no captulo 5, descreve-se como foram feitos os experimentos para avaliao dos objetivos propostos, incluindo a descrio do domnio de aplicao, a caracterizao da coleo de textos usada, os conceitos empregados na descoberta, o detalhamento do processo padro de descoberta, exemplos de conhecimento descoberto e o ambiente computacional utilizado para os experimentos. No captulo 6, so apresentados e discutidos os resultados das avaliaes feitas, bem como observaes sobre os experimentos e algumas concluses iniciais. O captulo 7 apresenta diversas aplicaes da abordagem proposta, enfatizando sua utilidade prtica e benefcios. Finalmente, o captulo 8 (consideraes finais) discute os objetivos alcanados, as contribuies desta tese, as vantagens e limitaes da proposta e tambm d incio a discusses sobre trabalhos futuros.

15

2 Trabalhos Correlatos e Problemas em AbertoFeldman e outros [FEL95] [FEL97] [FEL98] aplicam tcnicas de minerao de dados (KDD) sobre palavras-chave que identificam textos. So utilizadas tcnicas estatsticas para descobrir padres tais como palavras-chave mais comuns e correlaes entre palavras. O problema que as palavras-chave devem ter sido previamente associadas e somente indicam o assunto principal dos textos. Lin e outros [LIS98] tambm descobrem associaes em textos, mas utilizam termos extrados automaticamente dos textos. Os termos mais freqentes so associados aos textos como palavras-chave. Feldman e outros [FEL98b] tambm sugerem extrair termos diretamente dos textos, mas somente os considerados mais significativos. Para selecionar os termos, devem ser analisadas as seqncias sintticas que podem indicar padres interessantes, como por exemplo substantivo substantivo, substantivo preposio substantivo e adjetivo substantivo. J Davies [DAV89] sugere estratgias mais complexas para descoberta de conhecimento em textos. Uma delas procura identificar analogias em diferentes textos atravs da anlise de termos comuns. Sua sugesto omitir termos relacionados rea para reunir documentos de diversas reas que possam estar relacionados. Entretanto, a relao deve ser feita por atividades humanas. Para este problema, Chen [CHE93] sugere a construo automtica de resumos combinando partes de distintos textos, usando para isto estruturas internas (redes semnticas) e termos comuns aos textos. Outro tipo de descoberta sugerida por Davies [DAV89] so as correlaes escondidas (combinaes de conceitos atravs de relaes estatsticas). Para tanto, o referido autor sugere que sejam analisadas as distribuies de termos numa coleo. Assim, por exemplo, foi possvel identificar uma hiptese de relao entre um certo tipo de falha num sistema e alguns itens mais freqentes (possveis causas das falhas). Davies [DAV89] afirma que o todo mais que a mera soma das partes, o que permite que conhecimentos novos no explicitamente presentes nos textos possam ser descobertos analisando relaes semnticas entre os textos. Em [SWA97b], apresentada uma estratgia para descobrir relaes entre temas presentes em textos diferentes e sem conexes. No caso, as relaes so identificadas atravs da anlise dos termos presentes nos textos. Um dos problemas das estratgias acima citadas que elas se baseiam em termos ou palavras e no em conceitos da realidade. Estratgias baseadas em palavras dificultam o entendimento do conhecimento descoberto. Por exemplo, resultados de um processo de descoberta em textos mdicos concluram que o termo visual muito comum em pronturios de pacientes com determinada doena mental. Entretanto, no se pode concluir se o termo se refere a deficincia visual ou a iluso visual. A dificuldade se d, neste caso, porque os termos no esto relacionados a conceitos da realidade, mas somente a documentos (forma intermediria baseada no documento, segundo o esquema de Tan [TAN99]). Alm disto, o conhecimento descoberto no pode ser embutido em sistemas baseados em conhecimento, mas somente em sistemas automticos que utilizem regras ou

16

tcnicas baseadas em termos. Neste ltimo caso, o raciocnio de deciso usando tal conhecimento se torna difcil de ser verificado ou explicado. Outra limitao das tcnicas baseadas em termos ou palavras o chamado "problema do vocabulrio" (vocabulary problem), discutido em [FUR87], [CHH94] e [CHH97]. Este problema ocorre porque a linguagem pode ocasionar erros semnticos devido aos sinnimos (palavras diferentes com o mesmo significado), polisemia (a mesma palavra com diferentes significados), s variaes lxicas (uso de radicais, conjugaes verbais, variaes de gnero e nmero) e aos chamados quase-sinnimos (palavras correlatas, como "bomba" e "exploso"). Se as anlises dos textos forem feitas sem considerar estes problemas, o processo de KDT pode levar a resultados incorretos. Por exemplo, em textos sobre crimes, aparecem os termos sinnimos homicdio e assassinato. O processo de KDT deve saber identificar que ambos os termos se referem ao mesmo conceito para poder descobrir conhecimento sobre homicdios. Para minimizar o problema, alguns autores sugerem o uso ou a anlise dos termos sinnimos. Chen [CHH94] argumenta que as pessoas, em geral, usam termos diferentes para descrever conceitos similares (caso dos sinnimos). Furnas e outros [FUR87] discutem a efetividade do uso de sinnimos em uma estratgia chamada de " unlimited aliasing'', onde objetos podem ser representados por inmeros sinnimos. Jensen e Martinez [JEN2000] e Wilcox e outros [WIL2000] obtiveram melhoras de desempenho em processos de categorizao de textos usando sinnimos. Outro caso de problema do vocabulrio a forma diferente como conceitos da realidade podem ser expressos em textos. Por exemplo, em textos mdicos, para indicar que o paciente tem sintomas de alcoolismo, podem ser usadas expresses como faz uso de lcool, tem hlito etlico e bebe destilados. Uma das maneiras de minimizar tal problema utilizar um vocabulrio controlado. Lima e outros [LIM97] propem um modelo para assinalar cdigos do CID (Classificao Internacional de Doenas) [CEN89] a pronturios mdicos contendo informaes sobre pacientes. Os termos presentes nos textos dos pronturios so analisados em relao a termos usados no CID (um thesaurus da rea mdica) e em relao a sinnimos da rea para associar diagnsticos aos pronturios. Entretanto, o citado vocabulrio foi utilizado somente para melhorar a recuperao de documentos e no para realizar KDT. Alm disto, vocabulrios controlados no necessariamente ajudam a resolver erros semnticos. Por exemplo, em pronturios mdicos, se a expresso paciente nega dor de cabea fosse encontrada, um vocabulrio controlado s permitiria descobrir que o sintoma dor de cabea teria sido citado no texto (anlise a nvel de documento). O correto, contudo, seria descobrir que o tal sintoma no est presente no paciente (nvel de conceitos, mais prximo da realidade). Apesar das estratgias acima terem minimizado o problema do vocabulrio, elas utilizam formas intermedirias baseadas no documento e no em conceitos do domnio, segundo o esquema proposto por Tan [TAN99]. Isto quer dizer que o conhecimento descoberto somente diz respeito aos documentos e no a objetos ou entes da realidade. Tal afirmao corroborada pelas tcnicas de descoberta empregadas nestes trabalhos: classificao e recuperao. Tan [TAN99] analisou vrias ferramentas de Text Mining e conclui que os produtos existentes somente conseguem trabalhar bem com a forma intermediria baseada no documento, no existindo ferramentas de KDT eficientes para analisar formas intermedirias

17

baseadas em conceitos. Segundo Tan, faltam estratgias de minerao para destilar conhecimento analisando estruturas de mais alto nvel, mais prximas de conceitos ou objetos da realidade do domnio. A hiptese deste trabalho que processos de KDT podem ser realizados sobre conceitos do domnio, de uma maneira mais prxima do raciocnio humano. Assim, os conceitos agem como recursos meta-lingsticos para anlise de textos e descoberta de conhecimento. A idia realizar o processo de descoberta num nvel acima das palavras, ou seja, no analisando somente os termos e expresses presentes nos textos, mas seu significado em relao aos fenmenos da realidade (pessoas, objetos, entidades, eventos e situaes do mundo real). Pressupe-se tambm que conceitos servem melhor que palavras para representar e explicar o conhecimento usado em processos intelectuais. Alguns trabalhos seguem esta tendncia. Subasic e Huettner [SUB2000] analisam textos sobre filmes para extrair atributos qualitativos como horror, justia e dor. O objetivo classificar os filmes em gneros dependendo das caractersticas identificadas nos textos. Wilcox e outros [WIL2000], por sua vez, convertem textos mdicos narrativos para cdigos padronizados que representam observaes de alto nvel sobre pacientes (sinais e sintomas). O objetivo da estratgia caracterizar classes para um processo posterior de classificao de textos mdicos. Entretanto, tais trabalhos no realizam nenhum tipo de minerao sobre os conceitos extrados dos textos para destilar conhecimento novo, confirmando as concluses de Tan [TAN99]. A proposta desta tese analisar caractersticas de alto nvel em textos para realizar descoberta de conhecimento. Ao invs de aplicar as tcnicas sobre termos ou palavras-chave presentes nos textos, a proposta identificar conceitos presentes nos textos e depois aplicar tcnicas de minerao sobre estes conceitos. Assim, seria possvel diminuir o problema do vocabulrio e permitir descobertas a nvel de conceitos (nvel meta-lingstico, mais prximo da realidade) e no a nvel de palavras (nvel lingstico). A abordagem proposta combina um processo de categorizao, para identificar conceitos presentes nos textos, com a posterior aplicao de tcnicas de minerao sobre estes conceitos, para descobrir padres interessantes atravs de anlises estatsticas.

18

3 Objetivos da TeseO principal objetivo desta tese demonstrar a adequao de uma abordagem baseada em conceitos para descobrir conhecimento em textos e confirmar a hiptese de que este tipo de abordagem tem vantagens sobre abordagens baseadas em palavras. Para tanto, sero definidas estratgias para identificao dos conceitos nos textos e para minerao de padres sobre estes conceitos. Diferentes mtodos sero avaliados para estes dois processos. Ferramentas automatizadas sero empregadas para aplicar a abordagem proposta em estudos de casos. A hiptese ser comprovada por avaliaes especficas. A seguir, so listados os objetivos especficos deste trabalho. 1) Avaliar alternativas para definio de conceitos: Conceitos so identificados nos textos pela anlise de palavras. Faz-se necessrio estudar o processo de identificao dos conceitos nos textos. Uma parte deste processo se refere ao modo como os conceitos so selecionados e caracterizados, para que possam ser identificados. Para tanto, deve-se estudar: como os conceitos so escolhidos, que tipos de termos permitem identificar os conceitos, como deve ser a escolha destes termos e as relaes possveis entre os termos. Espera-se que sejam identificados fatores que influenciam tal processo. Esta avaliao servir para fundamentar a estratgia a ser usada no processo padro de KDT. 2) Avaliar mtodos de categorizao (identificao de conceitos): A outra parte do processo de identificao de conceitos nos textos um processo de classificao ou categorizao, pois procura identificar que classes ou categorias esto relacionadas a um certo texto. Devem ser estudados diferentes mtodos para tal processo. Espera-se poder identificar em que situaes cada tipo de mtodo melhor aplicado. 3) Definir um processo padro de identificao de conceitos: Usando os melhores mtodos de definio e categorizao, deve-se definir um processo padro para identificao de conceitos nos textos. Espera-se ter ferramentas automatizadas que realizem o processo de forma quase-automtica. 4) Definir um processo padro de minerao sobre conceitos: Deve-se decidir como os conceitos sero analisados para gerar novo conhecimento. Duas tcnicas de minerao sobre conceitos sero estudadas: distribuio de conceitos (lista de conceitos chave) e associao. Espera-se ter ferramentas automatizadas que realizem o processo de forma quase-automtica. 5) Realizar KDT em algum domnio usando o processo padro definido: Escolher um domnio e aplicar o processo padro definido. 6) Avaliar o grau de acerto na identificao de conceitos:

19

Sobre o experimento do passo anterior, deve-se avaliar a margem de erro atravs de critrios de teste. 7) Avaliar a qualidade do conhecimento descoberto: O conhecimento descoberto no experimento com o processo padro ser avaliado a) subjetivamente: atravs da validao de especialistas do domnio; b) objetivamente: atravs da construo de sistemas automticos que utilizem o conhecimento descoberto. 8) Comparar mtodos baseados em palavras com mtodos baseados em conceitos: Devem ser avaliadas as vantagens da abordagem baseada em conceitos sobre a abordagem baseada em palavras. 9) Avaliar a abordagem baseada em conceitos com outras tcnicas de minerao: Deve-se verificar se possvel usar os conceitos extrados dos textos com outras tcnicas de minerao. No caso, a tcnica escolhida foi o agrupamento (clustering). 10) Avaliar a possibilidade de descoberta proativa: Avaliar o quanto o processo de descoberta de conhecimento pode ser feito de forma automtica. Espera-se conhecer que partes do processo podem ser feitas de forma automtica e o quanto de interveno humana necessria (se possvel iniciar o processo sem hipteses sobre o que descobrir). 11) Avaliar diferentes aplicaes da abordagem: O processo de KDT proposto deve ser aplicado em diferentes situaes e domnios para que se possa avaliar sua utilidade e os tipos de problemas onde pode ser aplicado.

TABELA 3.1 - Objetivos deste trabalho

Objetivo1) avaliar alternativas para definio de conceitos

Atividades Previstas

Resultados Esperados

- estudo de mecanismos de apoio - identificao de fatores que definio de conceitos influenciam o processo - avaliao e comparao de diferentes - mtodos com melhores mtodos de definio de conceitos desempenhos - estudo, avaliao e comparao de mtodos de classificao aplicados para identificao de conceitos - identificao de situaes onde utilizar os tipos de mtodos existentes

2) avaliar mtodos de categorizao (identificao de conceitos)

3) definir um processo padro de identificao de conceitos 4) definir um processo padro de minerao sobre conceitos

- definir um processo com ferramentas automatizadas e com os melhores mtodos - definir um processo com ferramentas automatizadas e com os melhores mtodos

- processo padro para identificao de conceitos nos textos - processo padro para minerao sobre conceitos

20

Objetivo5) realizar um processo de KDT com o processo padro definido 6) avaliar grau de acerto na identificao de conceitos 7a) avaliar subjetivamente a qualidade do conhecimento descoberto 7b) avaliar objetivamente a qualidade do conhecimento descoberto

Atividades Previstas- escolher um domnio de aplicao - realizar um processo de descoberta com o processo padro - definir medidas de avaliao - avaliar o processo pelas medidas - apresentar resultados (conhecimento descoberto) para especialistas do domnio

Resultados Esperados- conhecimento resultante do processo - margem de erro pelas medidas definidas - parecer de especialistas sobre conhecimento descoberto

- construir um sistema automatizado de - nvel de acerto do sistema deciso usando o conhecimento automatizado descoberto - avaliar os resultados do sistema - construir sistemas automatizados com ambas as abordagens - comparar resultados dos sistemas - comparar raciocnio usando palavras X conceitos - graus de acerto dos sistemas construdos - comparao entre regras de raciocnio

8) comparar mtodos baseados em palavras com mtodos baseados em conceitos

9) avaliar a abordagem - selecionar ferramentas que baseada em conceitos com implementem outras tcnicas de outras tcnicas de minerao minerao - definir critrios de avaliao - realizar minerao sobre conceitos e sobre palavras - comparar abordagens (palavra X conceitos) - avaliar resultados para descoberta de conhecimento 10) avaliar a possibilidade de - realizar processo de descoberta sem descoberta proativa hipteses iniciais - investigar interveno humana - investigar necessidade de conhecimentos prvios 11) avaliar aplicaes da abordagem - definir aplicaes para a abordagem proposta - realizar estudos de casos

- comparao dos resultados da tcnica de minerao sobre conceitos X sobre palavras - conhecimento descoberto com a nova tcnica de minerao aplicada sobre conceitos

- estratgia para descoberta proativa - estudo da necessidade de interveno humana e conhecimentos prvios - aplicaes da abordagem - benefcios prticos

21

4 Descoberta Baseada em ConceitosA proposta desta tese estudar uma abordagem baseada em conceitos para realizar Descoberta de Conhecimento em Textos (KDT). O fundamento bsico aplicar as tcnicas tradicionais de minerao de dados (da rea de KDD) sobre conceitos extrados de textos, ao invs de trabalhar com palavras (presentes nos textos ou associadas a estes) ou trabalhar sobre valores de atributos. A abordagem proposta utiliza a forma intermediria baseada em conceitos, segundo o esquema de Tan [TAN99]. Neste caso, as representaes correspondem a objetos ou conceitos de um domnio e no aos documentos. Para realizar a descoberta de conhecimento, o processo de minerao analisa padres e relacionamentos entre objetos ou conceitos e no entre documentos. Portanto, o processo geral de descoberta dependente do domnio. De acordo com Sowa [SOW2000], conceitos so expressos por linguagens (palavras e gramticas), mas pertencem ao conhecimento extra-lingstico sobre o mundo. Por isto, a definio de um conceito determinada pelo ambiente, atividades e cultura das pessoas que falam a lngua [SOW2000]. Por exemplo, a nalisando discursos de polticos, algum pode querer identificar conceitos como "progresso", "problemas", "investimentos", etc. Por outro lado, num ambiente psiquitrico, conceitos podem ser "violncia", "alcoolismo", "suicdio", etc. Soderland [SOD97] utilizou conceitos na rea de previso do tempo. Cada condio climtica era um conceito com sua prpria definio. Abordagens baseadas em conceitos (concept-based approaches) j so usadas com sucesso na rea de Recuperao de Informao (RI). Lin e Chen [LIN96] comentam os benefcios deste tipo de abordagem em relao busca por palavras-chave. Sua principal vantagem minimizar o problema do vocabulrio. Conceitos representam melhor que palavras os objetos, eventos, sentimentos, aes, etc. do mundo real. Em geral, so usados em reas como anlise de discurso para identificar idias e ideologias presentes em textos. Chen e outros [CHH94b], por exemplo, usaram com sucesso a identificao de conceitos para organizar idias discutidas num processo de brainstorming eletrnico. Apesar de o termo conceito ser muito usado, difcil encontrar uma definio formal. Os dicionrios apontam sinnimos tais como idia, opinio, pensamento. Isto confirma a idia geral e intuitiva de que conceitos so usados para explorar e examinar o contedo de palestras, textos, documentos, livros, mensagens, etc. A estrutura bsica do processo de KDT proposto neste trabalho aparece na figura 4.1. O primeiro passo escolher que conceitos so interessantes de serem analisados e definir cada conceito. O segundo passo a categorizao, onde se procura identificar a presena dos conceitos nos textos da coleo em estudo. Aps, possvel realizar a minerao, ou seja, a aplicao das tcnicas de KDD sobre os conceitos identificados. Esta proposta pode ser considerada dentro do paradigma probabilstico e estatstico, de acordo com a classificao de Mannila [MAN2000].

22

Definio Conceitos

lfsiaefja alifjaslefj lfsiaefja asfiljasf alifjaslefj asfliasjfasef lfsiaefja asfiljasf alifjaslefj lfsiaefja ijlsfe asfliasjfasef asfiljasf alifjaslefj ijlsfe asfliasjfasef asfiljasf ijlsfe asfliasjfasef ijlsfe

Categorizao

conceito X conceito Y X conceito conceito Z conceito Y conceito W conceito X conceito Z conceito Y X conceito conceito W conceito Z conceito Y conceito W Z conceito conceito W

Minerao

TextosFIGURA 4.1 - Estrutura geral do processo de KDT

De forma resumida, pode-se comparar a abordagem proposta com as etapas de descoberta de conhecimento sugeridas em [GOE99]: a) entendimento do domnio de aplicao e definio de objetivos para o processo de descoberta: o usurio deve definir que tipo de conhecimento interessante de ser descoberto; b) aquisio e seleo de um conjunto de dados: os textos a serem analisados devem ser reunidos em uma coleo; c) integrao e verificao do conjunto de dados: cada texto deve estar contido em um nico arquivo; sub-colees podem ser formadas de acordo com critrios definidos pelo usurio; d) limpeza, pr-processamento e transformao dos dados: cada texto e seu contedo devem ser transformados para representaes internas; uma lista de stopwords deve ser definida e as mesmas devem ser desconsideradas para anlise; e) desenvolvimento de modelos e construo de hipteses: definio dos conceitos e identificao dos mesmos nos textos (transformao para a forma intermediria baseada em conceitos); f) escolha e aplicao de tcnicas e mtodos de minerao: processo de minerao sobre conceitos; g) visualizao e interpretao dos resultados: pessoas devem interpretar os padres identificados, usando conhecimento sobre o domnio; h) teste e verificao dos resultados: avaliao e validao do conhecimento descoberto (de forma subjetiva ou objetiva); i) uso e manuteno do conhecimento descoberto: aplicao do conhecimento para soluo de problemas do domnio (por humanos ou em sistemas automticos). Nas sees a seguir, cada etapa da abordagem proposta ser discutida atravs da apresentao das alternativas estudadas para realizao da etapa e dos mtodos escolhidos, bem como de sua justificativa.

Y-Axis

23

4.1 Representao de Conceitos O modo como conceitos so representados depende de pontos-de-vista particulares. Nesta proposta, optou-se por uma estrutura simples que permitisse representar objetos, eventos, pensamentos, opinies e idias do mundo real de forma fcil e com um grau de fidelidade adequado. Foram usados e testados dois modelos para representar internamente os conceitos: 1) o modelo espao de vetores (vector space), seguindo sugestes de [CHA2000], [CHH94b] e [SAL83]; e 2) o modelo contextual, seguindo sugestes de [COH96] e [CHH94b]. Em ambos os casos, parte-se do pressuposto de que conceitos so expressos por palavras, mas que as palavras sozinhas no so adequadas para identificar um conceito [CHH94] [CHH94b]. Isto devido ao problema do vocabulrio, discutido anteriormente. Ao examinar estratgias para Recuperao de Informao (RI), Bates [BAT86] concluiu que, para obter sucesso, o usurio que procura informao deve usar uma variedade de termos to grande quanto a variedade produzida no momento da indexao. Este tipo de redundncia permite identificar termos comuns usados pelo autor ou indexador e pelo usurio, no momento de expressar idias e conceitos. Assim, a eficincia na identificao dos conceitos maior porque mais termos foram cobertos. Este processo conhecido como expanso semntica e seu sucesso na rea de RI foi demonstrado em [BUC94], [IIV95] e [SPA92]. Ento, um conjunto suficiente de termos ou palavras deve ser utilizado para representar cada conceito. Em ambos os modelos, os termos descritores de um conceito podem incluir sinnimos, quase-sinnimos (palavras semanticamente relacionadas), variaes lxicas (conjugaes verbais, verbos e substantivos correlatos, variaes em grau e gnero) e outros. Os termos funcionam como tokens, ento no necessrio que o termo tenha um significado universal. Assim, podem ser usados nomes prprios, abreviaes e siglas especficas do domnio.

4.1.1 Modelo espao de vetores No modelo espao de vetores, cada conceito representado por um vetor de termos simples. Neste caso, no h relao direta entre os termos e todos so considerados do mesmo nvel (vetor no-ordenado e sem conexes entre os termos). A razo desta escolha que este modelo o mais simples e facilita as tarefas de definio e identificao dos conceitos. Associado a cada termo no vetor deve haver um peso, descrevendo o grau de importncia do termo para descrever ou identificar o conceito. De acordo com Chakrabarti [CHA2000], o vetor com pesos melhor que o modelo binrio (sem pesos) porque aumenta a preciso. A definio do peso de um termo descritor pode seguir a estratgia proposta por Morris [MOR76], na rea de Semitica. Este autor faz distino entre signos indicadores e signos caracterizadores. Os primeiros apontam para um objeto ou elemento especfico, enquanto que os ltimos restringem elementos em um conjunto. No caso deste trabalho, o

24

objeto ou elemento o conceito que se quer descobrir. Assim, termos indicadores devem receber um peso maior, pois possuem maior fora para indicar a presena do conceito (nomes prprios, por exemplo). Enquanto que os termos caracterizadores devem receber pesos relativos menores, pois, apesar de ajudarem a identificar um conceito, no do certeza de tal. Lagus e Kaski [LAG99] afirmam que um bom descritor deve caracterizar alguma propriedade importante. Salton e McGill [SAL83] defendem que bons termos descritores so os mais freqentes dentro de um texto mas infreqentes na coleo toda (freqncia inversa pequena). Os pesos devem ser normalizados para uma escala entre um e zero, para indicar a fora relativa do termo descritor. Por exemplo, para representar o conceito futebol, o termo futebol pode receber um grau maior que jogador, uma vez que a presena deste termo indica fortemente a presena do conceito futebol. J o segundo termo pode aparecer em outros conceitos semelhantes, como vlei e basquete, e portanto deve receber um peso menor. Feldman e Dagan [FEL95] defendem o uso de estruturas simples porque permitem que as tarefas sejam apoiadas por ferramentas automatizadas e porque geram menos esforo. Entretanto, o problema do modelo espao de vetores que o contexto dos termos no analisado e isto pode levar a interpretaes erradas. Por exemplo, o termo no pode alterar completamente o significado de uma expresso. Cada conceito deve ter somente um conjunto de descritores, mas um termo pode aparecer em mais de um conceito. No momento, somente termos simples so permitidos neste modelo, devido a limitaes computacionais. Entretanto, sabe-se que o uso de pares de termos e expresses complexas melhoram os mtodos [APT94]. O uso de termos simples no deve influenciar demais nos resultados, pois o uso exclusivo de termos simples relativamente eficiente em contrapartida ao uso exclusivamente de pares de termos que implica em resultados mais pobres [APT94].

4.1.2 Modelo contextual Para minimizar o problema de interpretaes erradas, outro tipo de representao foi testada tambm: o modelo contextual. Neste caso, a relao entre os termos influencia na representao do conceito. A idia permitir analisar o contexto em que os termos aparecem no texto para poder entender melhor o significado dos termos e assim poder decidir se um conceito est ou no presente. Segundo Cohen e Singer [COH96], o contexto pode ser entendido pela anlise dos termos prximos (aparecendo antes ou depois). Para representaes contextuais, Chen e outros [CHH94b] sugerem uma rede de termos e Cohen e Singer [COH96] sugerem uma lista ordenada de termos. No modelo contextual proposto nesta tese, a representao de um conceito deve ser feita atravs de uma ou mais regras, nas quais devem ser indicados termos positivos e termos negativos. Para um conceito estar presente, todos os termos positivos devem estar presentes na frase e nenhum termo negativo pode aparecer. Se uma das regras for verdadeira para a frase sendo analisada, ento o conceito est presente na frase e, conseqentemente, no texto. Por exemplo, no domnio mdico, o conceito alcoolismo pode ser definido pelas regras (o smbolo indica um termo negativo):

25

(i) lcool nega (ii) hlito etlico O termo negativo nega aparece para eliminar frases como o paciente nega uso de lcool. No modelo contextual, no foram utilizados pesos para as regras, ou seja, no h prioridade ou prevalncia de uma regra sobre as outras.

4.2 Definio dos Conceitos Para criar as representaes dos conceitos, necessrio escolher os conceitos que sero empregados no processo de descoberta e descrever cada um de acordo com o modelo escolhido (espao de vetores ou contextual). Este um processo de aprendizado e pode ser feito manualmente ou com ajuda de ferramentas de software, segundo Chakrabarti [CHA2000]. Uma das hipteses que mecanismos de apoio podem facilitar o processo de definio e podem melhorar os resultados finais da descoberta. Entre estes meios de apoio esto includos: dicionrios tcnicos, dicionrios gerais, thesauri, a interveno humana e casos-exemplo, para mtodos de aprendizado supervisionado (supervised learning). Chen e outros [CHH97] sugerem o uso de vocabulrios controlados, tais como dicionrios, thesauri ou ontologias. Se no existir previamente um vocabulrio para o domnio, o mesmo pode ser gerado automaticamente [CHH97]. Uma limitao dos thesauri que eles so estruturas muito rgidas e no suportam variaes mesmo que pequenas para apoiar subdomnios especficos (falta de especificidade ou de cobertura de conceitos). Yang e Chute [YAN94] relatam problemas com um thesaurus mdico porque, na prtica diria, eram usados termos especficos que no estavam no thesaurus. Quanto s ontologias, como a WordNet [MIL95], elas possuem a mesma limitao, a qual se faz mais visvel quando necessrio utilizar nomes prprios. Em relao aos dicionrios genricos, Liddy e outros [LID94] j demonstraram seus benefcios. Entretanto, por usarem termos muito genricos, algumas relaes importantes no so encontradas neste tipo de apoio. Por exemplo, o conceito futebol aparece como jogo de bola disputado entre dois times com 11 jogadores cada Neste caso, no aparecem termos importantes relacionados ao conceito, tais como campeonato, atacante, etc. A gerao automtica de um vocabulrio controlado pode ser feita atravs de mecanismos de aprendizagem de mquina (processos supervisionados). Estes utilizam exemplos para extrair definies. Entretanto, h a dificuldade de se obter uma amostra de qualidade, com casos-exemplo apropriados e representativos [APT94]. J os processos nosupervisionados podem ser feitos com a tcnica de agrupamento (clustering) [ETZ96]. Segundo Fisher [FIS87], o processo de agrupamento recebe descries de objetos e produz um esquema de classificao a partir de observaes sobre relaes entre os objetos (aprendizado por observao). O problema dos processos no-supervisionados que as classes geradas podem no ser de interesse ou apropriadas para o objetivo dos usurios. Por fim, h a possibilidade de especialistas humanos auxiliarem no processo de definio dos conceitos.

26

Um dos objetivos deste trabalho comparar meios de apoio ao processo de definio dos conceitos. Foram escolhidos para avaliao os seguintes mecanismos de apoio: dicionrios, thesaurus, a interveno humana e a aprendizagem supervisionada (anlise automtica de casos de treino). Por serem muito semelhantes aos thesauri, as ontologias no foram investigadas. No momento da escolha dos termos para definio dos conceitos, sugerida a remoo dos termos classificados como stopwords, que so termos muito freqentes e pouco significativos, tais como preposies, artigos, alguns tipos de pronomes, etc [SAL83].

4.3 Identificao dos Conceitos (Categorizao) O objetivo deste processo identificar os conceitos presentes nos textos. Como os textos no possuem explicitamente conceitos, mas sim palavras, a anlise deve partir da [APT94] [SOW2000]. O processo tambm pode ser chamado de categorizao, uma vez que feita a classificao de unidades de textos escritos em lngua natural em classes prdefinidas (conforme a definio de categorizao de Lewis e Hayes [LEW94]). Riloff e Lehnert [RIL94] avaliaram 3 mtodos de categorizao. Dois deles consideram que um conceito est presente se e somente se existe uma palavra ou expressochave no texto. Entretanto, estes mtodos esto sujeitos a erros por no considerarem o contexto (problema do vocabulrio). O terceiro mtodo avaliado por eles analisa o contexto, usando um grau de relevncia para decidir se o conceito est ou no presente no texto. Os referidos autores concluram que a escolha do mtodo depende das caractersticas da coleo de textos e da linguagem em que so escritos. Wiener e outros [WID95] utilizam redes neurais para realizar a categorizao de textos. A estratgia chamada de topic spotting por permitir descobrir vrios temas presentes nos textos. A desvantagem das redes neurais que so necessrios muitos e bons casos de exemplo, por se tratar de um processo de aprendizado supervisionado. Ragas e Koster [RAG98] realizaram experimentos usando 4 mtodos para categorizao: Rocchio, Bayes, Sleeping Experts e Winnow. O mtodo Rocchio [ROC66] utiliza um vetor prottipo (um centride) para representar cada classe ou categoria (nesta proposta, conceitos). O vetor composto de termos e pesos associados. A avaliao de pertinncia de um elemento na classe feita usando uma funo de similaridade (ou de distncia) entre os dois vetores representativos. Dependendo do grau de similaridade, o elemento sendo testado ser ou no considerado pertencente classe. Apesar de no ser considerado o melhor mtodo, o mais simples [YAN99]. J o mtodo Bayes utiliza uma estratgia semelhante, mas baseada em clculos probabilsticos [LEW98] [YAN99]. A probabilidade de o elemento pertencer a uma classe avaliada pela comparao entre os vetores representativos. Neste caso, o centride (ou vetor prottipo) da classe define os termos que provavelmente aparecem num texto da classe. O peso associado a probabilidade de o termo aparecer em documentos da classe. Quanto mais termos da classe o texto contiver, maior a probabilidade de ele pertencer q uela classe. O mtodo Naive Bayes assume que no h dependncia entre os termos, isto , a probabilidade de um termo no condicionada por outro [LEW98]. O mtodo Sleeping Experts [RAG98] semelhante ao Rocchio mas ajusta os pesos dos termos em sesses de treino. Este mtodo funciona melhor com pares e trios de palavras,

27

do que com termos nicos. O mtodo Winnow [RAG98] semelhante ao Sleeping Experts, com a diferena de que os pesos somente so ajustados se forem produzir algum tipo de erro. O resultado final conseguido aps vrias iteraes, quando os pesos permanecem estveis. Nos experimentos de Ragas e Koster [RAG98], os mtodos Rocchio e Bayes atingiram melhores resultados. A concluso destes autores que estes mtodos devem ser utilizados em conjunto. Entretanto, apesar da sua relativa eficincia e simplicidade, h a desvantagem de que estes mtodos no consideram o contexto semntico [COH96], podendo levar a interpretaes erradas, como discutido anteriormente. Um mtodo semelhante e que tem c onseguido bons resultados em processos de categorizao o Latent Semantic Indexing (LSI) [DEE90] [DUM96]. O mtodo til para encontrar termos que caracterizam uma classe (por exemplo, para encontrar o centride), minimizando assim o problema de sinnimos. Entretanto, h dvidas de que a polisemia possa ser resolvida [PAP98]. Deerwester e outros [DEE90] afirmam que h uma soluo parcial atravs da anlise contextual, mas a conseqncia pode ser enganos (false hits). Isto ocorre porque o LSI precisa de uma boa amostra de textos para treino (como um mtodo supervisionado) e isto nem sempre possvel. Alm disto, as amostras de cada classe devem ser puras (cada texto exemplo deve estar associado a somente uma classe) e separveis (deve haver poucos termos comuns a mais de uma classe) [PAP98]. O mtodo LSI funciona bem quando a coleo de textos no muda muito, ou seja, quando o mtodo treinado com os mesmos textos que sero avaliados para categorizao (as colees de treino e teste so as mesmas). Yang e Liu [YAN99] analisaram vrios mtodos de categorizao de textos. O mtodo Support Vector Machines (SVM) encontra a fronteira tima para separar os elementos da coleo em dois conjuntos. A limitao que s trabalha com duas classes. O mtodo Linear Least Squares Fit (LLSF) cria um modelo de regresso a partir de casos de treino para caracterizar cada classe, utilizando computaes complexas. O mtodo k-Nearest Neighbor (k-NN) decide a categoria de um caso de teste pelas categorias associadas aos seus k vizinhos mais prximos. Ou seja, deve-se encontrar, nos casos de treino, os k casos que so mais semelhantes e ento usar a categoria mais forte entre eles ( feito um clculo sobre os graus de relacionamento ou utilizada a categoria mais freqente). Sua aplicao no recomendada para encontrar temas muito especficos, pois a avaliao de similaridade (geralmente usando uma medida de distncia) feita sobre todo o texto. Outro mtodo testado em [YAN99] foi o Naive Bayes, que usa probabilidades de categorias e termos para decidir a categoria final. Este o mtodo mais simples entre os avaliados, exigindo portanto pouca computao. Tambm foi testada uma Rede Neural (RN), observando-se a desvantagem de exigir muito tempo de treino para alcanar bons resultados. Os mtodos estudados por Yang e Liu necessitam ser treinados para cada domnio especfico usando casos-exemplo. Esta uma desvantagem quando no existem casos de treino em nmero suficiente e representativos do domnio. Yang e Liu concluram que, quando h poucos casos de treino por classe (menos de 10), os mtodos SVM, LLSF e k-NN atingem melhores resultados no processo de categorizao. J quando h casos de treino em nmero suficiente (mais de 300), o desempenho dos mtodos avaliados semelhante. Quando no possvel dispor de casos de treino de boa qualidade, outros mtodos podem ser usados. Uma categoria de mtodos que no necessitam ser treinados so os

28

mtodos baseados em processamento de lngua natural (PLN). Nestes mtodos as regras de categorizao devem ser definidas manualmente. Isto no quer dizer que no seja necessrio analisar exemplos. Casos de exemplo servem para entender como as informaes so codificadas na linguagem e no contexto do domnio. Apesar de eficientes, tais mtodos so dispendiosos porque realizam uma anlise completa do texto [RIL94] e porque necessitam de muito conhecimento formalmente codificado, na forma de modelos e regras de extrao [KNI99]. Chinchor e outros [CHI93] comentam que o esforo (custo) para adaptar os sistemas MUC-3 para um novo domnio so da ordem de 10 a 11 homem/ms, por sistema. Uma tentativa de mesclar mtodos de aprendizado supervisionado com PLN so os wrappers [MAT99] [ETZ96]. Estes sistemas de extrao de informao analisam pginas da Web procura de padres lingsticos (estruturas, palavras-chave, relaes entre palavras). Cada padro determina o tipo de informao que est codificado. Pginas-exemplo so utilizadas para associar automaticamente padres aos tipos de informao. Apesar de serem usados para extrao de informaes (para identificar, por exemplo, valores de atributos de um banco de dados), as mesmas tcnicas podem ser empregadas para categorizao de textos. Assim, quando novas pginas esto sendo analisadas, s certos e padres forem reconhecidos, o documento textual se enquadraria numa determinada categoria. Contudo, sistemas tipo wrappers so ainda muito dependentes do domnio e aplicados somente a certos tipos de documentos [GAR99]. Para classificar textos, isto exigiria quase que um sistema especfico para cada categoria de texto. Mattox e outros [MAT99] afirmam que o processo de construo de um wrapper eficiente exige muito conhecimento semntico sobre o domnio. Isto implica em algum tipo de anlise semntica e no somente utilizar tcnicas para reconhecimento de padres. Assim, ao invs de usar mtodos complexos para identificar conceitos nos textos, a proposta desta tese utilizar tcnicas simples mas que permitam algum tipo de anlise semntica. Baseando-se em que os conceitos podem ser identificados por sinais nos textos (termos e relaes), segundo os estudos de Riloff e Lehnert [RIL94], as regras de identificao de conceitos podem ser simples, no necessitando realizar anlise sinttica ou morfolgica. Neste trabalho, foram definidos dois mtodos de identificao de conceitos, correspondendo aos dois modelos para representar internamente os conceitos: o modelo espao de vetores (vector space) e o modelo contextual. Ambos os mtodos usam uma tcnica simples de reconhecimento de padres e um mecanismo de raciocnio. O reconhecimento de padres procura identificar termos-chave no texto. Se isto ocorrer, admite-se a hiptese da presena do conceito. J o mecanismo de raciocnio serve para dar semntica ao processo, permitindo entender o significado dos padres reconhecidos e, conseqentemente, possibilitando inferir a presena ou no dos conceitos nos textos. Para esta anlise semntica, os mtodos levam em considerao o contexto dos padres reconhecidos. Nestes mtodos, a identificao de conceitos feita num nvel intermedirio entre a classificao e a extrao de informaes (EI). Isto porque as abordagens de classificao, em geral, procuram identificar o tema ou assunto principal de um texto. Nesta tese, pretendese identificar vrias caractersticas (no caso, conceitos), numa relao muitos-para-muitos

29

entre textos e categorias. Esta estratgia semelhante ao problema de topic spotting discutido em [WID95]; a diferena reside no objetivo: em [WID95], deseja-se encontrar os temas principais no contedo de um texto e nesta proposta, o objetivo identificar a presena de conceitos, os quais podem no ser to centrais ou importantes no contedo. Por outro lado, a diferena em relao EI que as abordagens existentes de EI procuram descobrir valores para atributos, enquanto que, na abordagem proposta, basta identificar a presena de conceitos. Uma das vantagens amenizar o trabalho de Engenharia de Conhecimento necessrio para definir as regras de extrao, seja manualmente ou por mtodos supervisionados. A aplicao dos mtodos propostos neste trabalho tambm vantajosa quando no importa a informao exata. Por exemplo, a abordagem serviria bem para se saber se o paciente veio acompanhado de "familiares" mas no interessando saber quem exatamente. [CRO94] discute este problema de incerteza, sugerindo a recuperao de documentos com base em informaes fuzzy. Foram testados dois mtodos de identificao de conceitos, mas a abordagem geral proposta para KDT poderia admitir outro tipo de mtodo de categorizao (por exemplo, os analisados em [YAN99]). Para a definio dos mtodos de identificao de conceitos, foram levados em conta os seguintes objetivos: 1) baixa complexidade com desempenho regular: Para facilitar a implementao dos mtodos, j que no objetivo da tese usar o melhor mtodo existente, mas mostrar que com certa preciso se pode descobrir conhecimento til e us-lo posteriormente com segurana. 2) capacidade de reconhecimento de padres, mesmo que simples: Um mecanismo simples para identificao de termos-chave nos textos. 3) capacidade de anlise semntica, mesmo que simples: Deve haver um mecanismo de raciocnio com capacidade para analisar os padres identificados e inferir significado, para avaliar se o conceito est ou no presente. 4) capacidade de anlise do contexto, mesmo que simples: Considera-se que o contexto de um termo-chave so outros termos presentes no texto todo ou os termos prximos na mesma frase. A anlise do contexto permite limitar os significados possveis dos termos [COH96] ou apontar com maior segurana para determinado objeto ou elemento (no caso, um conceito) [MOR76]. A seguir, sero detalhados os dois mtodos propostos e avaliados.

4.3.1 Mtodo baseado no espao de vetores Neste mtodo, utiliza-se o modelo espao de vetores para representar os conceitos. Como cada conceito definido por um conjunto de termos, o processo de categorizao busca encontrar a presena destes termos (sinais) nos textos. Depois, usando um processo de

30

raciocnio fuzzy, os pesos dos sinais (termos) encontrados so computados para avaliar a possibilidade de presena do conceito no texto. Para o reconhecimento de padres, baseou-se nos mtodos Rocchio e Naive Bayes, que so simples e alcanam uma eficincia adequada. O mtodo proposto compara caractersticas entre os vetores representativos da classe e do texto. O tipo de raciocnio utilizado sobre os padres reconhecidos baseia-se nas sugestes apresentadas em [RIL94]. A hiptese de que algumas caractersticas, quando juntas, indicam a descrio de um evento, com certo grau de confiabilidade (segundo Riloff e Lehnert, um ndice de relevncia - relevance index). Cabe salientar que o contexto de anlise o texto todo e no suas partes. Assim, o mtodo baseado no espao de vetores avalia os pesos definidos para os termos identificados e a freqncia destes termos no texto para calcular a possibilidade da presena de um conceito. Isto segue a sugesto de McCarthy [MCC2000] quanto ao uso de conceitos aproximados. Segundo o referido autor, existem condies suficientes e condies necessrias para certificar a presena de um conceito numa base de conhecimento. As condies suficientes (CS) implicam na presena obrigatria do conceito (CS CONCEITO), enquanto que as condies necessrias (CN) so conseqncias da presena do conceito (CONCEITO CN). O mtodo aqui proposto para categorizao apenas considera as condies necessrias. A funo fuzzy realiza ento um raciocnio abductivo. De aco