seminário in1099 information retrieval & text mining luciano de souza cabral cin-ufpe

Seminário IN1099Information Retrieval & Text Mining

Luciano de Souza CabralCIn-UFPE

Roteiro Introdução Motivação Recuperação de Informação Mineração de Textos

Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining

Conclusão Referências

Introdução

Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)

Crescimento exponencial da World Wide Web

Novas técnicas de recuperação de informações (IR)

+

Motivação

O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.

“Estamos morrendo ignorantes num mar de informações.” (Desconhecido)

Recuperação da Informação

Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação.

Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.

Conceito de Recuperação da Informação A Recuperação da Informação trata dos

aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]

Modelos de Recuperação da InformaçãoEficiência de um sistema depende

principalmentedo modelo que o mesmo utiliza:

Modelos quantitativos Modelos dinâmicos Linguagem natural Ambiente Web - Web Semântica

Abordagens de RI Busca automática baseada em palavra-

chave Técnicas de Indexação

Manual e Automática Técnicas de Classificação Conceitos importantes

“ranking” “stemming” “tesaurus”

Critérios utilizados em RI Revocação

Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes

Precisão Mede o sucesso da filtragem: número de

documentos relevantes recuperados em relação ao total de documentos recuperados

Cobertura: volume de informações disponíveis Formato de saída Tempo de resposta Atualidade

Problemas de RI Ausência Contexto Problemas Lingüísticos Necessidade de Intervenção Humana

Extração do Conhecimento Por definição, “A extração de conhecimento em bases de

dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].

[Cabral & Siebra, 06]

Extração do Conhecimento Etapas do processo

* Adaptado de [TERRA, 2000].


Mineração de Dados Data Mining

“...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia]

Aplica-se dados categóricos e numéricos. Restrito a bases de dados relacionais e variações.

Mineração de Dados Text Mining

“...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia]

Aplica-se a textos. Abrange textos em formato livre ou semi-

estruturados.

Data Mining versus Text Mining

* Adaptado de [WOHL, 1998].


Abordagens e Áreas envolvidas Computacional

Aprendizagem de máquina; Lógica Fuzzy; Estatística; Recuperação da Informação.

Simbólica Processamento de Linguagem Natural; Raciocínio baseado em casos e simbólico

Ambas abordagens podem ser combinadas.

[Freitas, 07]

Abordagens da Mineração de TextoPrós e Contras Computacional

Bom para maioria das tarefas;

De implementação rápida, baseada em aprendizagem;

Não recomendado para argumentação e dedução de informações.

Baseado em Conhecimento Melhor no tratamento

de contextos Ontologias!

Combina melhor com técnicas PLN Pergunta-Resposta Análise e Argumentação

Textual Extração de Informação

Pouquíssimo utilizado na articulação de conceitos

[Freitas, 07]

Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)

KDT - Knowledge Discovery from Texts

Técnicas KDT Extração de Informação Categorização de textos Análise das características Análise lingüística Sumarização de textos Associação entre textos Clustering (Agrupamento)

Ontologias Definições

“Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998];

“Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].

Vantagens Discussões na área de Mineração de Textos é

se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual.

Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário.

Entretanto é notório que algum tipo de intervenção humana é necessária e útil.

Tendências Necessidade de integrar cada vez mais

as abordagens de BD, HM e RI com ontologias Busca de maior “semântica” associada às

informações

Abordagens apresentam funcionalidades complementares

Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer

Crescente necessidade de uso de Taxonomias e Ontologias

Aplicações de RI com Ontologias OntoSeek M&M MASTER-Web AGATHE* KIM Platform WSMO Studio ambiente para modelagem de SWS OWLIM repositório semântico de escala industrial Wsmo4j API e referências para construção de SWS PROTON um pequeno construtor/editor de

ontologias de propósito geral. ORDI um framework para representação de

ontologias e integração de dados via middleware.

OntoSeek Desenvolvido para recuperar informações de páginas-amarelas e

catálogo de produtos. Ontologia na interface do usuário; Trata ambiguidade, polisemia, sinonímia e relações parte todo

usando WordNet [Miller, 95]

[Guarino et al., 99]

M&M M&M query system, por Natasha Noy. Apresenta conceitos de RI como sistema de

Pergunta-Resposta sobre o domínio de Microbiologia.

Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo.

Performance muito boa.

[Noy, 99]

Master-WEB[Freitas & Bittencourt, 2003]

• Multi-Agent System for Text Extraction, Retrieval and classification over the WEB.

• Testes com ontologias de domínios diferentes, com resultados expressivos.

• Sem grandes alterações no projeto.

KIM Platform Plataforma de Gerenciamento de Informação e

Conhecimento. Indexa, Armazena, Recupera, Consulta, análise de

linha de tempo das anotações semânticas.

Evolução: Recursos na Web

Futuro: Web Semântica Não apenas informações e aplicativos, mas

recursos em geral!

O que é Web Semântica? É uma extensão da Web atual que visa dar

significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]

Web Semântica: Visão da W3C “A Web Semântica é uma visão: é a idéia de

se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]

XML e a Web Semântica Convergência de diversas tendências

Uso de padrões Busca de flexibilidade, conviver com heterogeneidade Maior automatização Melhoria dos mecanismos de busca Melhoria dos descritores associados aos recursos Maior suporte à integração de recursos

Serviços Web + Ontologias

Conclusões A Recuperação da Informação sozinha apresenta

alguns problemas não triviais de serem tratados. A utilização de Mineração de Textos combinada

com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado.

Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados.

Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.

Referências TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio. São Paulo: Negócio Editora, 2000. TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em:

<http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007. MICTHELL, Tom. Machine Learning, McGraw Hill, 1997. WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA:

1998. STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2,

1998. LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos. INTEXT: Porto Alegre, Dezembro,

2004. CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de

Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006. FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007. WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>. RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999. W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso

em: 30/09/2007. GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3),

70--80, (May 1999). KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and Retrieval

Extended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005. POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information

Extraction and Retrieval. Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.

seminário in1099 information retrieval & text mining luciano de souza cabral cin-ufpe

Documents