gestão e recuperação de informação recuperação de informação na web josé borbinha –...
TRANSCRIPT
Gestão e Recuperação de Informação
Recuperação de Informação na Web
José Borbinha – DEI/IST
2
• O problema• A Web superficial• A Web profunda• Outros assuntos
Recuperação de Informação na Web
3
Recuperação de Informação na Web: O Problema
http://news.netcraft.com/archives/2006/04/06/april_2006_web_server_survey.html
Quantos objectos?Quantas páginas?Como achar algo?
4
O “cyberespaço” em 1995
http://robot-club.com/lti/pub/lycos-websize-9510.html
5
O “cyberespaço” indexado pelo Lycos em 1995(“...Between Nov 21, 1994 and Jan 31, 1995, Lycos successfully
downloaded at least one file from 15,858 unique HTTP servers...”)
http://robot-club.com/lti/pub/lycos-websize-9510.html
6
A “Web” em 1999...(“By analyzing the overlap between engines we estimated a lower bound on the size of the "publicly indexable Web" at 320 million pages (see below for more details). The "publicly
indexable Web" excludes pages typically not indexed by the major search engines, e.g. pages behind search forms or authorization requirements. The following figure shows the estimated
coverage of six major Web search engines compared to the estimated size of the Web.”)
http://www.cs.biu.ac.il/home/search/studies/lawrence.htm
7
Como achar algo na Web... ainda por cima quando nem tudo é estático...???
Web Superficial
Web Profunda
8
• O problema• A Web superficial
– Directórios e Catálogos– Search Engines
• A Web profunda• Outros assuntos
Recuperação de Informação na Web
9
No princípio: Directórios e Catálogos
–Yahoo, SAPO, ...–Subject Gateways (Renardus, ...) – ...
11
“Subject Gateways”Renardus – Classificação de recursos de qualidade da web... “à mão”!!!
12
Renardus “mapping tool”...
ddc: Sistema de classificação decimal de
Dewey
13
A “raposa” não resistiu...
14
Mas ainda restam alguns persistentes...
15
Search Engines
–Altavista, Google, A9, tumba!...–Anatomia de uma search engine
16
Altavista...
Yahoo!
AltaVista
17
1998: Google!!!
18
A9.com
19
20
21
tumba! (Temos Um Motor de Busca Alternativo!)
• Motor de busca para sites “portugueses” (de Portugal)
• Suporte ao Arquivo da “Web Portuguesa”
22
Web
Anatomia de uma “Search Engine”
Cra
wle
rs
Rep
osito
ry
Inde
Eng
ine
Ran
king
Eng
ine
Pres
enta
tion
Engi
ne
23
Uma nova área de negócio: ajudar clientes a ter os seus sites melhor “classificados” nos motores de busca...
Caso: “big feet” e Google (Financial Times – UK, September 16, 2005)[http://www.ufppc.org/content/view/3416/36/]...
24
btw, Caso da Semana...
25
• O problema• A Web superficial• A Web profunda
– Pesquisa distribuída– Partilha de Metadados
• Outros assuntos
Recuperação de Informação na Web
26
A Web profunda
• Pesquisa Distribuída– Z39.50 / SRU (relembrar aula 5)
27
Servidores Z39.50 em bibliotecas Portuguesas:
28
b-on
29
Metalib (suporte à b-on...)
http://www.emeraldinsight.com/fig/0721040101001.png
Z39.50HTTP/HTML
...
30
A Web profunda
• Partilha de Metadados– OAI-PMH, Syndication (RSS, ATOM, ...)
31
OAI-PMHProtocol for Metadata Harvesting
(http://www.oaforum.org/tutorial/image/structure-model.gif)
Web-Services segundo o modelo
REST...
32
TEL – The European Library - Exemplo de um serviço usando OAI-PMH, SRU e Z39.50
33
TEL Portal...
TELcentral index
SRUZ39.50
SRU
Z39.50
OAI-PMH
Search and Retrieval in TEL: Actual Scenario
34
Search and Retrieval in TEL: A Desired Scenario (project TELplus...)
“intelligent” TEL Portal...
TELcentral index
SRU
OAI-PMHOAI-PMH
Z39.50
35
Scholar Google: interoperabilidade com a “Web Profunda”
36
Scholar Google: interoperabilidade com a “Web Profunda”
37
“link” para a “Web
Profunda”...
38
Google News
Feeds em RSS
(RDF) e ATOM (XML)
39
• O problema• A Web superficial• A Web profunda• Outros assuntos
– A Web Semântica– Preservação da Web
Recuperação de Informação na Web
40
A Web Semântica...
41
Preservação da Web
Dinâmica
Estática
Superficial
Profunda
42
Preservação da Web: Internet Archive
43
Preservação da Web: waybackmachine
44
Preservação Digital...
45
Perguntas?