frederico brito fernandes - [email protected] agentes inteligentes - cin ufpe novembro 2000

41
Frederico Brito Fernandes - [email protected] Agentes Inteligentes - Cin Novembro 2000

Upload: internet

Post on 21-Apr-2015

113 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Frederico Brito Fernandes - [email protected] Inteligentes - Cin UFPE

Novembro 2000

Page 2: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

2

Sistemas tradicionais de Recuperação de Informação (RI) usam termos para indexação e recuperação dos dados (há 20 anos !!!)

Termos são palavras ou conjuntos de palavras de um documento

Indexação armazenamento da informação nas bases de índice

Recuperação

BI BIdocs. termo1 - doc1, doc3,...

termo2 - doc41, ... ... - ...

Arquivos Invertidos

+ BI BIInformação

Armazenada = docs.relevantes

Necessidade do Usuário(palavras-chave, profile, etc)

Page 3: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

3

Stop List lista de palavras comuns, irrelevantes

Term Frequency-Inverse Document Frequency (TFIDF): atribuição de peso aos termos

Artigos: a, os, ...Pronomes: meu, aquele, ...Advérbios: muito, bem, ...

...

)(log)()(

DF

DTFTFIDF

TF(w): freqüência da palavra w no doc.DF(w): freqüência de w em DD = total de documentos

CONNECTCONNECTEDCONNECTINGCONNECTIONCONNECTIONS

Stemming e n-grams redução de termos. Ex:

Page 4: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

4

Precisão Documentos relevantes retornados dividido pelo número total de retornados

Cobertura Total de documentos relevantes retornados dividido pelo número total dos relevantes

Todos os Documentos

Documentos Relevantes

Documentos Retornados

Relevantes Retornados

by Flávia ([email protected])

Page 5: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

5

Outros Conceitos:

Robô (ou spider) programas que percorrem links na web,

geralmente com objetivo de indexá-la

Corpus conjunto de documentos etiquetados

Filtragem à partir do profile(gosto) do usuário, documentos

interessantes são selecionados

Routing faz a mesma coisa que filtragem, a medida que os

documentos vão sendo adicionados ao Corpus

Arquivo invertido termos (índices) mapeando os documentos

em que aparecem

Page 6: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

6

Base de Índice banco de dados de um sistema de índices

Similaridade o grau de quanto 2 documentos são semelhantes

Co-Citação (co-citation) dois documentos são citados por um

mesmo documento

Thesaurus identifica o relacionamento entre termos

Trec (Text Retrieval Conference) conferência de IR para

demonstração de experimentos com grandes banco de dados,

banco de dados multimídia, etc

Page 7: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

7

Engenhos de BuscaEx: Radix, Altavista

BI BIÍndices + URLs

Usuário

Interface

Robôs

web

Documentos +

URLs

palavras-chavepalavras-chave Busca

Consulta

Casamento de Termos

Resultado

Stop List inde

xaçã

ore

cupe

raçã

o

Page 8: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

8

Representação Física de Documentos Textuais Digitais Texto completo

Difícil de manipular Centróide - conjunto de termos com pesos associados ou não

Perda de semântica

“Se o desonesto soubesse a vantagem de ser honesto,

ele seria honesto ao menos por desonestidade.”

Sócrates

honesto 2desonesto 1soubesse 1vantagem 1seria 1menos 1desonestidade 1

CentróideCentróide

Page 9: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

9

Motivação: que documentos são relevantes a uma consulta do usuário ? Ou qual o grau de semelhança entre dois documentos ? Surgiu a necessidade de criar modelos para interpretar e manipular documentos

Representação Lógica (Modelos) de Documentos Textuais Digitais

Framework para manipular e interpretar documentos Várias abordagens: teoria dos conjuntos, álgebra linear, probabilidade, etc Ex: Vector Space

Mostraremos alguns deles !!

doc2

doc1

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 10: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

10

Definição Formal de modelo em IR: É definido pela quádrupla [ D, Q, ƒ, R(qi,dj) ]

D - visão lógica dos documentosQ - visão lógica da query do usuárioƒ - um framework para modelar essas representações e seus relacionamentosR(qi,dj) - uma função que associa um número real com uma query qi Q e um documento dj D

ObsObs.: Para simplificação, considere Q = D, e R(qi,dj) = Sim

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 11: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Modelos Clássicos de IR: Booleano documentos são representados como um conjunto de termos que aparecem no documento Vector Space como um vetor em um espaço t-dimensional Probabilista baseado na teoria da probabilidade

Derivações: Booleano Fuzzy, Booleano Estendido Vector Space Vetor Generalizado, Indexação com Semântica Latente, Redes Neurais Probabilista Rede de Inferência, Rede de Crença

Alternativo: Baseado em Links algoritmos Companion e Cocitation [1]

[1] HENZINGER, M. R. & DEAN, J. Finding Related Pages in World Wide Web

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

11

Page 12: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

D: conjunto de termos do documento, com pesos binários f: teoria dos conjuntos e álgebra booleana Sim: apenas retorna 1 (se o termo esta presente no doc.) ou 0 Ex.: sejam os k termos

Vantagem: Oferece um framework simples e elegante

Desvantagem: Determinístico: um documento é ou não relevante Problemas com Precisão e Cobertura: Resultados (muito) grandes ou pequenos e sem uma escala de relevância

BooleanoBooleano

k1 k2

k3

k1 k2 k3Documentos relevantes

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

12

Page 13: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

13

D: um vetor f : espaço vetorial t-dimensional e operações de álgebra linear sobre vetores

As dimensões do espaço vetorial são os termos do documento Os termos recebem pesos de relevância no documento (negrito, título, etc) Esses pesos são usados como índices do vetor Modelo mais utilizado em IR

Brasil 0.3Olimpíadas 0.5Sidney 0.2

ddii

Brasil 0.2Olimpíadas 0.4Sidney 0.4

ddjj

Vector SpaceVector Space

Brasil

Olimpíadas

Sidney

di0.2

0.50.3

dj

di = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney

dj = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 14: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Sim: produto interno / produto das normas

Sim = = = 0.28

Vantagem: Oferece um framework simples e elegante Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança Em geral, seu desempenho (precisão e cobertura) supera todos os outros modelos

di • dj

|di| · |dj|

0.3 · 0.2 + 0.5 · 0.4 + 0.2 · 0.4

( 0.09 + 0.25 + 0.04 )½ · ( 0.04 + 0.16 + 0.16 )½

Vector SpaceVector Space booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

14

Page 15: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Baseado no principio probabilístico “Dada uma query q e um documento dj em uma coleção, este modelo tenta estimar a probabilidade de que o usuário ache o documento dj interessante (i.e., relevante)

Idéia fundamental Dada uma query, existe um conjunto de documentos relevantes e outro não Esse conjunto de documentos relevantes tem certas propriedades Definimos probabilidades associadas a essas propriedades O usuário interage para definir que documentos foram ou não relevantes As probabilidades são então melhoradas

Vantagens e Desvantagens: Medida de similaridade: os documentos são retornados em ordem decrescente do seu grau de semelhança Necessidade de separar os documentos relevantes a priori 15

ProbabilistaProbabilista booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 16: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Combinação do modelo booleano com o vector space

D: um ponto no espaço

f : espaço t-dimensional e distância entre pontos

Sim : distância de dj D para o ponto 1 (no caso de AND)

Estende o modelo booleano com pesos entre [0,1]

wx,j = fx,j ·idfx

maxi idfi

16

Booleano EstendidoBooleano Estendido booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 17: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

Relaxa álgebra booleana e interpreta operações booleanas em termos de distâncias algébricas (tome wx,j como x)

Sim = 1 - (1-x1)p + (x2)p + ... + (1-xm)p

m

1/p

and = 1 - (1-x1)p + (1-x2)p + ... + (1-xm)p

m

1/p

or = (x1)p + (x2)p + ... + (xm)p

m

1/p

Distância parao ponto (1,1,...,1)

Distância parao ponto (0,0,...,0)

17

Booleano EstendidoBooleano Estendido booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 18: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

18

Busca documentos relevantes através do conceito, e não mais apenas por termos:

D: uma coluna da matriz termo-documento ( abaixo) f : operações com matrizes (ex. transposta t) Sim: obtido com algumas transformações

query doc1doc1termo doc2doc2

Doc1 Doc2 Doc3 ... Doc NTermo1 w11 w12 w13 ... w1n

Termo2 w21 w22 w23 ... w2n

... ... ... ... ... wTermo t wt1 wt2 wt3 ... wtn

M

M : matriz termo-documento, com pesos nas linhas e documentos nas colunas

Latent Semantic IndexingLatent Semantic Indexing booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 19: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

19

Decompondo a matriz em três componentes :

Reduzindo o espaço para dimensionalidade s :

O relacionamento entre os documentos é obtido com :

Matriz que nos fornece o fator de Matriz que nos fornece o fator de similaridade entre Doc1 e todos os similaridade entre Doc1 e todos os

outros documentosoutros documentos

Sim Doc1Doc1 w11

Doc2 w21

... ... DocN wN1

M = , onde = e = K S Dt K M Mt Dt Mt M

M

Ms = Ks Ss Dt

s

Mts

= ( ) ( )tMs SsDs SsDs

Latent Semantic IndexingLatent Semantic Indexing booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 20: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

20

D: um nó na rede f : rede neural com três camadas

ka

kb

kc

ka

kb

kc

kt

k1 d1

dj

Dj+1

dN

Termos deuma query

Termos de D D

Sim: wi,q wi,j

( w2i,q )½ ( w2

i,j ) ½i=1

t

i=1

t

i=1

ti=1

twi,q wi,j =

wi,q

( w2i,q )½

i=1

t

i=1

t

wi,j

( w2i,j )½

i=1

t

i=1

tPropagação 1 Propagação 2

Igual ao vector space na primeira passagem

Rede NeuralRede Neural booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 21: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

21

D: como um nó f : estrutura de links, e operações como pai(d) e filho(d) Princípio Básico:

Gráfico da Vizinhança: - a partir de um documento d-

d

b b b

bf fb

ff

bfbffb

di dj

“Se existe um link de di para dj, então o autor recomenda dj e o link oferece um documento relacionado”

- Gráfico de links gerado a partir do nó d, com a ferramenta Connectivity Server -

Baseado em LinksBaseado em Links booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 22: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

22

Algoritmo Companion Construção do Gráfico de Vizinhança Eliminação de Duplicatas 95% de links em comum e mais de 10 links Atribuição de pesos aos links:

Calculo do Authority e Hub:

Sim = nós com maiores Authority

1/k

1/k

1/j

1/jA B C

Dados os hosts:- A com 2 nós (k=2) - B com 1 nó (j=2)- C com 2 nós

A[n] = H[n]H[n] = A[n]

Baseado em LinksBaseado em Links booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 23: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

23

Algoritmo Cocitation Dois nós são co-citados se tem o mesmo pai Grau de Co-Citação numero de pais em comum

Sim = nós com maiores graus de co-citação (F, G, E, H)

A B C D

uE F G H

1 3 2 1

Baseado em LinksBaseado em Links booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 24: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

24

Conclusões

Grande diversidade de modelos Modelos híbridos (booleano probabilista, booleano estendido) Vector Space: mais utilizado e divulgado na literatura Em termos de precisão e cobertura,

Alguns modelos se mostraram mais eficientes que o

Vector Space em domínios especializados Bases grandes e heterogêneas: não se tem registro de

nenhum modelo que supere o Vector Space

booleanobooleanovetorvetor

probabilistaprobabilista

A estru

tura montada em

Sidney para receb

er

os 15,5 m

il atle

tas...

O Brasil conseguiu

6 medalhas de prata

e 6 de bronze em Sid...

ag

n

tvk

f

ModelosModelos

Page 25: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

25

Lista de Croft versus Características de AgentesLista de Croft versus Características de Agentes

Relevância do FeedbackExtração de InformaçãoRecuperação MultimídiaRecuperação EfetivaFiltering e RoutingInterface e NavegaçãoExpansão de termosEficiência e FlexibilidadeRI DistribuídaSoluções Integradas

10.9.8.7.6.5.4.3.2.1.

Adaptação Cooperação Autonomia

- Bruce Croft apresentou na revista D-Lib Magazine em Nov. de 95 [1] a lista dos 10 maiores desafios em RI -

[1] http://www.dlib.org/dlib/november95/11croft.html

Page 26: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

26

Agentes Baseados em Recuperação de Informação (ABRI)

All-in-oneFastfind

MetacrawlerMetasearchProfusion

SavvysearchWebCompass

NetBotJango

ShopBot

CARROTInfoSleuth

RetsinaSAIREUMDL

ShopBot MetaBuscaInterface Simples Interface Simples para Múltiplas Fontespara Múltiplas Fontes

KnowBotURLAgents

EachMovieFirefly

GroupLensMorse

MovieCriticPhoaks

RARE/TunesReferralWeb

SiteSeerYenta

Colaborativo

Adaptação para Adaptação para Usuários e ConteúdoUsuários e Conteúdo

BackwebMarimbaPointcast

SIFTTopicAGENTs

FishwrapMyYahoo

Syskill and Webert

RemembranceAgent Push

InterfaceAdaptativa Pró-Ativo

CompreensãoCompreensãode Conteúdode Conteúdo

ABRI

Bases (grandes)Distribuídas

Especialistaem Conteúdo

Page 27: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

27

KnowBots Provê uma linguagem de consulta para acessar várias fontes

ShopBot e-commerce MetaBusca engenhos de busca

Ex: Metacrawler : MetaBusca

Única interface Consulta vários engenhos de busca Combina os resultados

NetBot Jango : ShopBot Única interface Consulta vários sites a procura de determinados produtos: CDs, charutos Mostra uma lista de produto + preço + site

Page 28: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

28

Bases (Grandes) Distribuídas Corpus dinâmico, medido em MB (ou GB) Documentos heterogêneos: tamanhos, formatos, linguagens Arquitetura:

AgentesAgentes

}-{ }-{

}-{

}-{

}-{

}-{

feedback, consultas

documentos

feedback, consultas

documentos

MúltiplosUsuários

BI BI

BIBI

consultasdocumentos

consultasdocumentos

MúltiplasFontes de Informação

Page 29: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

29

Bases (Grandes) Distribuídas Sobre a arquitetura:

Cada usuário é representado (pelo menos) por um agente, que tem (ou obtém) o perfil ou necessidade do usuário. Problema do Profile do Usuário As consultas podem ser modificadas (ex. expandida) e enviadas para as bases. Problema do Processamento de Consultas As bases podem ter diferentes modelos de documentos e consultas. Problema da Heterogeneidade Documentos de diferentes bases precisam ser comparados e ranqueados. Problema da Fusão de Dados

Page 30: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

30

Bases (Grandes) Distribuídas Ex:

SAIRE Scalable Agent-based Information Retrieval Engine Provê acesso aos dados da NASA EOSDIS Suporte para leigos e experts Três variedades de agentes: Interface, Coordenador e Especialista em Domínios Comunicação entre agentes

http://saire.ivv.nasa.gov/saire.html

UMDL University of Michigan Digital Library Três tipos de agentes:

Interface - consultas e profile Mediador - planejamento Buscador - engenhos de busca

O usuário pode navegar através de um applet java, sob uma ontologia de informação desenvolvida por eles

http://www.si.umich.edu/UMDL/

Page 31: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

31

Filtragem Colaborativa Um sistema de filtragem colaborativo faz recomendações a um usuário de acordo com o grupo de usuários similares a ele Recomenda:

Pessoas - Yenta, ReferralWeb Produtos - Firefly, Similarities Engine, Tunes (music), EachMovie, Morse, RARE, MovieCritic (movies & videos) Leituras - Wisewire, Firefly, Fab, Phoaks

Baseado em Conteúdo vs. Recomendação Colaborativa

Documentorecomendado

Documento

gosta gosta

similar a

similar a

Recomendação Baseada em

Conteúdo

Recomendação Colaborativa

Page 32: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

32

Filtragem Colaborativa Ex:

FAB recomenda sites usando técnicas de RI adaptativa Agente: coletor, selecionador e enviador Feedback do usuário: adaptar profile e dar(tirar) crédito aos agentes Um algoritmo genético é usado para desenvolver a população de agentes coletores

Http://fab.stanford.edu

Firefly Aplicado a música, filmes, sites, livros, etc Usa vários conjuntos de vizinhos para aumentar a precisão Recomenda usuários que não gostam de um site, ou um site que um dado usuário não gosta Comprada pela Microsoft, Abril 98

Page 33: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

33

Interface Adaptativa

Ex:SysKill & Webert controla o browser adicionando painéis Facilita ao usuário avaliar um site como bom ou ruim a respeito de uma das várias classes definidas pelos usuários Pode estimar quais sites o usuário poderia gostar

Page 34: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

34

Pró-Ativo Ex:

Remembrance Agent Indexa arquivos pessoais e e-mails Sugere arquivos relevantes à tarefa que o usuário está executando Opera continuamente

Letizia Agente que navega semelhante ao usuário Usuários geralmente navegam em profundidade, enquanto Letizia navega em largura

Usa uma variedade de heurísticas para identificar sites interessantes Quando um site interessante é encontrado, é mostrado em uma janela diferente

Page 35: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

35

Pró-AtivoPUSH Ex:

TopicAGENTs Provê uma visão do agente das tarefas de recuperação de informação para o usuário Tarefas: filtragem, categorização, routing Variedade de serviços de envio:

Sites Entrada no banco de dados E-mail Fax

Page 36: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

36

Conclusões

Vantagens de Agentes baseados em Recuperação de Informação: Manipulam dinamicamente bases heterogêneas e distribuídas Melhoram a performance via agentes especializados Podem adaptar-se aos interesses e preferências dos usuários

Tecnologias já disponíveis: Linguagens e protocolos de comunicação entre agentes. Ex: KQML Métodos e algoritmos de Machine Learning etc.

Futuro: Melhorar o processamento e representação de metadados Habilidade para manipular mídias: imagens, sons, vídeos, etc Fusão inteligente de bases heterogêneas

Page 37: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

37

Em desenvolvimento no CIn-UFPE CIn-UFPE Ajuda o usuário a encontrar documentos semelhantes ao que ele está consultando/editando no momento

Plataformas: IE, Netscape e Microsof Word

Compara o conteúdo de dois documentos Representa um aumento na precisão dos documentos recuperados

Extremamente útil na Intranet de uma empresa: Padronização dos documentos

Business da empresa Facilidade para o funcionário encontrar documentos similares ao que está editando.

Economiza tempo dele mesmo e de outros

Page 38: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

38

Netscape

Active SearchActive Search

RadixRadixGoogleGoogle

}-{

Ontologia

Doc Ps

Html. . .

Web

Servidor de Consulta

Intranet

Internet

Interface

InternetExplorer

MSWord

CentróideDoc.Atual

-------- ---

Algoritmo de

Similaridade

Algoritmo de

Similaridade

StopList

Preparação doDocumento

Preparação doDocumento

DocumentoAtual

CentróidesBuscados

-------- ---

Algoritmo de

Busca

Algoritmo de

Busca

query

Lista URLs

similares

ArquiteturaArquitetura

Page 39: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

39

ProtótipoProtótipo

Page 40: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

40

Próximos Passos...

Estudar e implementar mais modelos de representação de documentos (medidas de similaridade) Realizar medições da qualidade das respostas para os diferentes modelos

Precisão, cobertura, f-measure, etc

Estudar e implementar técnicas de filtragem e clustering

Page 41: Frederico Brito Fernandes - fbf2@cin.ufpe.br Agentes Inteligentes - Cin UFPE Novembro 2000

41

Recuperação de Informação BAEZA-YATES, Ricado, RIBEIRO-NETO, Berthier. Modern Information Retrieval JONES, Karen S., WILLET, Peter. Readings in Information Retrieval http://www.cs.kun.nl/is/edu/ir1/dir.htm http://www.ils.unc.edu/viles/inls172-s99/172-Syll-S99.html http://www.pitt.edu/~korfhage/glossary.html

Agentes baseados em Recuperação de Informação http://www.cs.umbc.edu/abir/