ferramentas de mineração de informação não estruturada eduardo massao arakaki di-ufpe

36
Ferramentas de Mineração de Ferramentas de Mineração de Informação Não Estruturada Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Upload: internet

Post on 17-Apr-2015

114 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Ferramentas de Mineração de Ferramentas de Mineração de Informação Não EstruturadaInformação Não Estruturada

Eduardo Massao ArakakiDI-UFPE

Page 2: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

RoteiroRoteiro O que é Text Mining e Web Mining? Motivação e Paradigmas Ferramentas

• IBM’s Intelligent Miner for Text• AltaVista Discovery• Agentware• SemioMap• TextAnalyst• Cambio• KPS

Comparação da ferramentas Conclusão sobre estado da arte Referências

Page 3: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

Crucial distinguir:• Formato da informação

ASCII, MLs, DBs, KBs

• Assunto da informação Web visits, sales data, sport statistics

• Localização da informação Internet, Intranet, stand-alone computer

Text Mining e Web Mining ainda:• Muito ambíguos • Usados de forma inapropriadas

Page 4: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

Descoberta de conhecimento • a partir de dados completamente estruturados

(BD) Data mining, Web visit mining (SOBRE a Web) Intelligent Miner for Data, DBminer, PRIM

• a partir de dados semi-estruturados (HTML, XML, SGML)

Web page mining (NA web) KPS

• a partir de dados não estruturados (ASCII) Text Mining Intelligent Miner for Text, Agentware, TextAnalyst

Page 5: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

Recuperação de informação• a partir de dados completamente estruturados

(BD) SQL

• a partir de dados semi-estruturados (HTML, XML, SGML)

AltaVista, eXcite, Bright!

• a partir de dados não estruturados (ASCII) RI clássica, pré-Web (ex, Smart por Salton)

Extração de informação• estruturar informação semi ou não estruturada

em BD

Page 6: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

Text Mining• Análogo a data mining

Descobre relacionamentos em dados.

• Diferente de data mining Trabalha com informações armazenadas numa coleção

de dados não estruturados (textos)

• Utiliza duas tecnologias ferramenta de busca na Internet metodologia de análise de texto

• “Pode se dizer que representa uma nova geração de ferramentas de busca na Internet”

Page 7: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

Web Page Mining• Refere ao processo de busca e extração de dados

“escondidos” numa página Web

Web Visit Mining• Descobre relacionamentos significantes e

tendências através da integração e análise de informação do tráfego da Web (Internet/intranet) e dos dados tradicionais do negócio.

• Serve para analisar investimentos online de uma empresa, num esforço para maximizar o retorno

Page 8: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Web Visit Mining

Page 9: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Mining e mining: don’t believe the hype!Mining e mining: don’t believe the hype!

ASCII

ML

DB

KB

ASCII+ esquema

Usuário

IR

Wrappers

Data Mining True Web Mining

Info extraction Web search

SQL

Text mining

Aprendizagem

Page 10: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

O que é text mining e web mining?O que é text mining e web mining?

Web visit mining

Web page mining

Text mining

Web searching

Information Extraction

Information retrieval

Semi-structured data query

Wrappers

Data Mining

Page 11: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

MotivaçãoMotivação Estatística sobre crescimento da Web 80% dos dados numa empresa não são estruturados (ex.

documentos, manuais, E-mail, apresentações, na Web) Informação on-line cada vez:

• mais numerosa• mais universalmente acessível• menos estruturada

Web potencialmente formidável fonte de dados para mineração de dados e KDD

Desafios:• não apenas integrar aprendizagem+DB• mais também IR, NLP, linguagens de mark-up, agents, wrappers,

Page 12: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Web -> Conhecimento: qual caminho?Web -> Conhecimento: qual caminho?

ASCII

ML

DB

KB

ASCII+DB esquema

Data Mining

Usuário

Web search

SQL

IR

Info extraction

True Web Mining

botar ferramentas a apresentar no arcos corretos+ termos da transparencia de batatoide

Page 13: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Aplicações específicasAplicações específicas

Qualquer aplicação de KDD sem DB e com informação textual

Mais especificamente:• bibliotecas digitais• gerência de emails• gerência de documentos • help desk automático• pesquisa de mercado• agrupamento inteligente de informações de mercado

Exemplos comerciais:

Page 14: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

FerramentasFerramentas

Page 15: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

IBM’s Intelligent Miner for TextIBM’s Intelligent Miner for Text

Ferramenta de Text Mining online (web mining) Funcionalidades:

• Extrai padrões de atributos semânticos a partir de texto (extração de informação)

• Organiza documentos por assunto (agrupamento conceitual)

• Encontra temas predominantes numa coleção de documentos (um passo da sumarização automática)

• Busca por documentos relevantes (recuperação de informação)

Possui ferramentas de análise de texto e ferramenta de busca

Page 16: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Examina numa página Web os links para outras páginasAplicativo para construção de serviços de busca Web

Máquina de busca. Permite a construção de sist. de recuperação de informação avançado

Extrai sentenças de um documento criando um sumário (em ASCII ou HTML)

Usa características e estatísticas extraídas do texto para executar uma tarefa. Baseada num esquema de categorias predefinidas.Divide um conjunto de documentos em grupos. Metodologias: Agrup. Relacional e agrup. Hierárquico.

Reconhece itens significativos no texto. Ex. nomes de pessoas, empresas, lugares, datas, etc.

IBM’s Intelligent Miner for TextIBM’s Intelligent Miner for Text

Page 17: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Feature Extraction - NomesFeature Extraction - Nomes

<HTML>

<TITLE>Local Education Outreach

</TITLE><BODY>

At IBM Corp., they take seriously the responsibility to help schools achieve the goal articulatedby President Clinton and the National Governors Associationthat ... Together with Learning Inc. of Somers, New York,IBM is starting ...

At the IBM Thomas J. Watson Research Center in WestchesterCounty, Dr. James J. Smith manages the Local Education OutreachProgram, and organizes activities for students and teachers fromschool districts in the area, including New York City. Smithalso co-ordinates IBM's participation in the National Scienceand Technology Week. NSTW is an annual event sponsored byThe National Science Foundation to foster public understandingof science and technology.

</BODY>

</HTML>

Page 18: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Feature Extraction - NomesFeature Extraction - Nomes

<IMZ ID>demo.txt</IMZ ID><IMZ TITLE>Local Education Outreach</IMZ TITLE><IMZ CONTENT>NC 3 IBM ORGNC 1 IBM Thomas J. Watson Research Center in

Westchester County ORGNC 2 James J. Smith PERSONNC 1 Learning ORGNC 1 Local Education Outreach Program ORGNC 1 National Governors Association ORGNC 2 National Science and Technology Week ORGNC 1 National Science Foundation ORGNC 1 New York City PLACENC 1 President Clinton PERSONNC 1 Somers , New York PLACE?</IMZ CONTENT>

Page 19: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

IBM’s Intelligent Miner for TextIBM’s Intelligent Miner for Text

O que utilizar para realizar essas tarefas?• Atribuir documentos a categorias predefinidas• Dividir documentos em grupos não predefinidos• Prover um visão de uma grande coleção de documentos• Identificar similaridades escondidas em documentos• Identificar características de documentos• Pesquisa por texto• Pesquisa através da Intranet• Pesquisa rápida na Web• Marketing• Busca com categorias• Tratamento de e-mails• Indexação seletiva de páginas Web

Page 20: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AltaVista DiscoveryAltaVista Discovery

Assistente de pesquisa que habilita aos usuários encontrar informação indiferente de sua localização

Funcionalidades:• Sumariza documentos• Encontra páginas similares as já encontradas• Encontra todas páginas referenciadas por um página• Encontra mais documentos a partir de um site de interesse• Provê indexação automática de todas páginas acessadas

pelo usuário

Page 21: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AltaVista DiscoveryAltaVista Discovery

Page 22: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AgentwareAgentware

Text mining online Composto de três elementos:

• Knowledge Server

• Knowledge Update

• Knowledge Builder

Page 23: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AgentwareAgentware

Knowledge Server• Categorização automática e precisa

eliminando a necessidade de processamento manual.

Page 24: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AgentwareAgentware

Knowledge Update• Monitora centenas de sites da Internet e Intranet, novos

documentos e repositórios internos de documentos.

• Cria um relatório personalizado destes conteúdos

Page 25: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

AgentwareAgentware

Knowledge Builder• Permite as empresas customizar os produtos de Autonomy

a fim de atender suas necessidades individuais.

• São APIs (Application Programming Interfaces).

Page 26: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

TextAnalystTextAnalyst

Sistema de busca semântica de informação e Text Mining (análise de texto)

Implementa uma rede semâtica para processamento de textos escritos em linguagem natural.

Destinado para operação interativa com documentos já reunidos (offline)

Page 27: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Tarefas de TextAnalystTarefas de TextAnalyst

Tarefas:• Identificação dos principais conceitos de textos

bem como relações semânticas entre estes conceitos,

com avaliação da importância destas relações

• Criação de bases de conhecimento expressadas em linguagem natural para criação de hipertext e sistemas especialistas

• Criação automática de uma estrutura hierárquica de tópicos

• Criação de uma rede semântica ajustada do texto investigado

• Indexação automática de textos com a criação de hipertext

• Busca semântica por informações no texto (palavras chaves)

• Abstração automática de textos

Page 29: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

SemioMapSemioMap

Produzido pela Semio Corporation SemioMap extrai todas frases relevantes a partir de

coleção de textos Facilita a exploração de conceitos numa grande

coleção de documentos sem ter de examiná-los manualmente

SemioMap podem processar diversos tipos de documentos:• ASCII, HTML, Microsoft Word, WordPerfect, e outros

Não tem interface com a Internet

Page 30: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

SemioMapSemioMap

SemioMap constrói uma estrutura conceitual de coleções de textos dinâmicos, usando análise lingüística a fim de identificar relacionamentos de conceitos em documentos diferentes.

Aplicações• Ferramentas de Busca

• Sistemas de gerenciamento de documentos

• Groupware

• Visualização

Page 31: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

SemioMapSemioMap

Como ele trabalha?• Software de extração léxica

lê automaticamente grandes bases de textos não estruturados e extrai tadas frases relevantes a partir da coleção de textos.

• Agrupamento de Informação Identifica os relacionamentos entre estas frases.

Constrói uma “rede léxica”

• Visualização gráfica Mapa gráfico permitindo aos usuários navegar rapidamente

através de frases chaves e relacionamentos dentro de um texto

Page 32: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

Arquitetura do SemioMapArquitetura do SemioMap

Page 33: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

CambioCambio

Examina documentos e extrai dados significativos para um arquivo de banco de dados

Documentos podem ser arquivos ASCII, páginas Web, emails

Metodologia utilizada:• Particionamento

• Reconhecimento de padrões

• Tags para atribuição de elementos de dados no documento analisado

Page 34: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

CambioCambio

Ferramenta offline e não totalmente automática Pode trabalhar em conjunto com um webcrawler Não tem funções de análise semântica Pode representar o nível de entrada de um sistema

de Text Mining Apresenta uma boa interface

Page 35: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

ConclusõesConclusões Ranking em termos de complexidade de tecnologia

Falta de maior clareza na explicação de como as ferramentas trabalham

Todas ferramentas são recentes (menos de cinco anos) O que se vende e se pesquisa agora como text mining:

• é integração de recuperação de informação, extração de informação e gerenciamento de informação semi-estruturada

• tem quase nada a ver com data mining: não envolve aprendizagem seu produto final é texto ou templates e não conhecimento

Intelligent Miner for Text

Agentware SemioMap TextAnalyst AltaVistaDiscovery

Cambio

+ -

Page 36: Ferramentas de Mineração de Informação Não Estruturada Eduardo Massao Arakaki DI-UFPE

ReferênciasReferências

Online Text Mining• http://allen.comm.virginia.edu/jtl5t/index.htm