pesquisa e arquivo da web portuguesa daniel gomes [email protected] fccn
TRANSCRIPT
![Page 2: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/2.jpg)
2
Estrutura da apresentação
• 1ª parte– Como surgiu e como funciona o tumba!
• 2ª parte – Projecto de arquivo da web portuguesa
![Page 3: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/3.jpg)
3
Como surgiu o tumba?• 1999-2000 – Projecto de pesquisa sobre noticias.• 2000-2001 – Projecto de recolha de publicações online
com a BN.• 2001 – Tumba!: investigação
– 5 pessoas – 4 PCs velhos para suportar o sistema– Problemas para a FCUL
• 2002 – Apoio da FCCN, serviço público gratuito• 2006 – Ainda estamos vivos (?!)
– Com a ajuda de novos alunos– Grande rotatividade: 17 alunos já passaram pelo projecto
![Page 4: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/4.jpg)
4
Para que tem servido?
• Para aprender– Como é que funciona o Google?
• Para ensinar– Como é que funciona o Google:
• Serviço público com 3 fins– Motor de busca da comunidade portuguesa– Arquivo da Web Portuguesa– Recurso de investigação
• Ao vivo em www.tumba.pt
![Page 5: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/5.jpg)
5
![Page 6: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/6.jpg)
6
![Page 7: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/7.jpg)
7
O que aconteceu a seguir ao Enter?
• O gnomo verde foi buscar as páginas à web?
• Não.
![Page 8: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/8.jpg)
8
Levantando o véu
Web
Batedor Repositório Índice Ordenação Apresentação
![Page 9: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/9.jpg)
9
Batedor (crawler)
WebRepositórioCrawler
Sementes(URLs)
![Page 10: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/10.jpg)
10
Recolha• Duas listas:
– URLs por recolher– URLs recolhidos
1. Pega num URLA dos URLs por recolher2. Recolhe e guarda a páginaA no repositório3. Extrai os URLs dos links da páginaA
4. Insere os novos URLs nos URLs por recolher.5. Insere o URLA nos URLs recolhidos
– Para não voltar lá.
![Page 11: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/11.jpg)
11
Problemas
• Milhões de páginas para recolher– Requer muitos computadores e rede
• Há pessoas que não gostam das visitas– Robots Exclusion Protocol
• A web é um caos– O crawler está sempre a avariar-se.– Qualidade crescente devido a browsers mais
rigorosos
![Page 12: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/12.jpg)
12
Exemplo: simulem o crawler a extrair links de uma página HTML
<html><head><title>Página de teste</title><meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1"></head><body><p>Bem vindos!</p><p>Experimentem o<a href="http://www.tumba.pt"> motor de busca tumba!</a>.</p><p>Vejam também a minha<a href="http://xldb.fc.ul.pt/daniel/"> página pessoal</a>.</p></body></html>
Dica: os links estão próximos dos href
![Page 13: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/13.jpg)
13
O crawler recolhe 3 páginas
http://xldb.fc.ul.pt/teste
http://xldb.fc.ul.pt/daniel/ http://www.tumba.pt
![Page 14: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/14.jpg)
14
Exemplo: simulem o crawler a extrair links de um Flash
CWS^F·^U^@^@x<9C>íWy<ÔkÛ¿f1ÆÈ^^<89>B٥ž¥!Yr,ÉVª#<8D>^XÙ<97>²^\<9A>)ÙJ<92>He;iQ²fP¢"<92><9D>B<85>VI²<9B>ßóESCÔ9=<9F>ç¼ïyÞ¿Þ?Î=<9F>ß|î¹ïïu_×÷{]÷=÷Ï^GH<97>^A,$` ^F^L<82><90>±<9B>°^@H^GÒ^M^FÀ˹<84>{ <89><97><9B><8B><9B><9F><8F>W@XNDXHHXIRz¥<9C>¶<8A>îF-^UM^M=<93>Ý^Vz[ì^M54·yZÙ;îs¥ºn2÷^Möq^NÚ½ß<95>ÂZ^DÃÇÏ/,(¼^Dd=e³æfÊ^?Ý<90>^G ^N<80>aÃÌ7Xl^X,^NÏF`'r<90>8Q@!/`18^\^V<8F>ccÃãÑÙ0t^^ð|lü«<94>ô ^BVNì«}<97>*^_9<9D>N<94>Ü|«Jpû³^Q)<95>}~
• Não percebem nada?• O crawler também não.• Só o programa da Macromedia é que percebe
![Page 15: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/15.jpg)
15
O crawler recolhe apenas 1 página
• Estas páginas não são recolhidas• Não aparecem nos resultados dos motores de busca
http://www.hpinformatica.net/menu.swf
./servicos.html ./produtos.html ./contactos.html
![Page 16: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/16.jpg)
16
Indexação
• Para acelerar, as pesquisas são feitas sobre índices e não sobre as páginas armazenadas
Web
Crawler Repositório Índice Ordenação Apresentação
![Page 17: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/17.jpg)
17
Índice remissivo de um livro
Termo PáginasArquivo.........4, 10, 12, 99, 123Biblioteca......1, 11, 20, 33Correio..........32, 54, 94...
![Page 18: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/18.jpg)
18
Motor de busca: Índice remissivo da web
Termo Páginas (URLs) Arquivo.........1,188 milhõesBiblioteca......301 milCorreio..........303 mil...• Mesmo o índice é muito grande• E tem de ser rápido! Porque os utilizadores esperam apenas alguns segundos pela resposta a uma pesquisa
![Page 19: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/19.jpg)
19
E agora?
![Page 20: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/20.jpg)
20
Dividir para conquistar
• Construção do índice– Dividem-se as páginas por várias máquinas– Cada máquina
• Extrai o texto das suas páginas• Constrói um índice• Responde a parte das pesquisas
![Page 21: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/21.jpg)
21
Quando se pesquisa
ÍndiceA-H
ÍndiceI-Q
ÍndiceR-Z
Servidor 1
Servidor 2
Servidor 3
Servidor Web
Tumba!
Browser
arquivo
portuguesa
web
arquivo da web portuguesa
Então e o “da”?-Stop-words-Ocupam muito espaço-Sem significado
![Page 22: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/22.jpg)
22
Hardware do tumba!• Computadores
– 6 chaços (P200, 128 MB)– 10 servidores (com uns aninhos)
• Internet: FCCN 30 Mbps ATM• Rede local: 1 Gbps (recente)
![Page 23: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/23.jpg)
23
SoftwarePlataforma:• Linux• Oracle – meta-dados• BerkeleyDB – índices• Hsql – crawlers• Httpd, tomcat, struts• Wiki• CVS• Bugzilla
Linguagens:• Java• C++ • Perl, bash scripts, SQL
![Page 24: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/24.jpg)
24
Desempenho do Tumba!
• Até 20 000 queries /dia • 10 milhões de documentos – a maior
recolha da web portuguesa!• 95% respondidas em menos de 0.5 seg. –
com 3 servidores
![Page 25: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/25.jpg)
25
Como obter os melhores resultados na primeira página?
Web
Batedor Repositório Índice Ordenação Apresentação
![Page 26: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/26.jpg)
26
Resultados ordenados por relevância
Combinação de vários factores
PageRankFrequência
no documento
Frequênciana Web
Textos das âncoras
Partes importantes
dodocumento
![Page 27: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/27.jpg)
27
Como se mede a relevância• Quanto maior a frequência de um termo da pesquisa num
documento, maior a relevância.
• Quanto maior a frequência de um termo da pesquisa na Web, menor a relevância.
• Quanto maior for documento em número de palavras, menor a relevância.
• Quanto maior o PageRank de um documento, maior a relevância
• Quanto maior a frequência de um termo da pesquisa em partes importantes da página (ex: o título), maior a relevância
Usada uma formula que
combina todos estes
parâmetros
Documentos mais relevantes
retornados em primeiro lugar!
![Page 28: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/28.jpg)
28
Problemas com lista ordenada de resultados
• Pesquisas com vários “sentidos” possíveis– Jaguar (o animal ou o carro desportivo)– Benfica (o clube de futebol ou o local)– …
• Problema para as vossas pós-graduações.– Clustering– Semantic Web e Ontologias– Resultados personalizados
![Page 29: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/29.jpg)
2ª parte: Arquivo da Web Portuguesa
![Page 30: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/30.jpg)
30
A era digital começou (já há alguns anos)
• A Web é a maior fonte de informação construída– Jornais, livros, documentação técnica– Informação publicada exclusivamente na Web
• A informação na Web é efémera – Gerações futuras poderão testemunhar uma “Idade
das Trevas” digital• Temos que começar a arquivar
– Propósitos históricos– Provas em casos judiciais
![Page 31: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/31.jpg)
31
Requisitos de um arquivo da Web
• A forma de arquivo tradicional requer demasiada intervenção humana– Não é compatível com a dimensão da Web
• Recolha e armazenamento automático– Intervenção humana mínima
• Dispendioso em larga escala– Internet Archive (www.archive.org)
![Page 32: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/32.jpg)
32
Arquivos web nacionais• Dividir para conquistar: cada país arquiva a sua
web– 11 da U. E.: Alemanha, Áustria, Dinamarca,
Finlândia, França, Grécia, Lituânia, Holanda, Suécia, Reino Unido e República Checa.
– 6 externos: Austrália, Canadá, Estados Unidos da América, Japão, Nova Zelândia e Noruega.
• Necessários critérios para definir limites das webs nacionais
• Necessárias arquitecturas de sistema e software específico para suportar o arquivo da web
![Page 33: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/33.jpg)
33
Estrutura da apresentação
– Introdução• Proposta para o arquivo da web
portuguesa• Conclusões
![Page 34: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/34.jpg)
34
Contexto
• Projecto de I & D– É necessária investigação para seguir a
evolução da web• Duração de 2 anos• Necessária visão a longo prazo
![Page 35: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/35.jpg)
35
Principais objectivos
• Iniciar o “depósito legal” da web portuguesa
• Serviço público de acesso ao arquivo• Formação de recursos humanos• Disseminação da informação arquivada
para preservação
![Page 36: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/36.jpg)
36
Benefícios nacionais • Português como língua da web• Capacidade local de tratamento de informação
da web– Segurança nacional não pode depender do
estrangeiro• Exportação do saber-fazer
– Arquivo da Web é tecnologia de ponta.• Dados para a Ciência
– Sociologia, prospecção de dados, processamento da língua
• Provas judiciais
![Page 37: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/37.jpg)
37
Principais desafios
• Recrutamento de mão-de-obra qualificada• Tecnologia específica pouco madura• Boa abrangência da Web portuguesa• Pesquisa eficiente num arquivo histórico
– É um problema em aberto– Apresentação de conteúdos
• Preservação da informação• Financiamento e continuidade a longo prazo• Má qualidade da Web portuguesa
– Web ≠ Internet
![Page 38: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/38.jpg)
38
O que arquivar?
• Sites sob .PT (1ª fase)– Estamos a perder metade da web portuguesa– Alguns utilizadores ficarão insatisfeitos
• Tipos GIF, JPEG e HTML– 95% dos conteúdos publicados
• Espaço necessário estimado– 250 GB por recolha
• Recolhas trimestrais
![Page 39: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/39.jpg)
39
Como arquivar?
• Meta-dados que permitam preservar e aceder à informação– Estratégia de conversão de formatos
• Espaço de armazenamento incremental• Acessibilidade à informação por pessoas
e máquinas• Ferramentas de gestão e preservação
![Page 40: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/40.jpg)
40
Tecnologias
• Não existe software comercial de arquivo da web
• Adoptar soluções de código aberto– Alteração para o contexto da web– Maior garantia de preservação– Gratuitas– Existem para o arquivo da Web!
![Page 41: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/41.jpg)
41
Exemplos de tecnologias para arquivo
• Internet Archive– Archive-access project (
http://archive-access.sourceforge.net/)– Heritrix crawler– Formatos ARC e WARC
• NutchWAX (Nutch + Web Archive eXtensions) – Nutch: motor de busca de código-aberto para a web
• WERA (Web aRchive Access) – Archive viewer application– Antigo Nordic Web Archive
![Page 42: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/42.jpg)
42
Boas notícias• Conseguiu-se fazer
um protótipo usável com:– 3 pessoas– Máquinas velhas– Boa vontade
• Existe conhecimento nacional acerca do assunto
• Contacto com o IA
![Page 43: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/43.jpg)
43
Dados arquivados no protótipo
• Recolhidos da web portuguesa e migrados de recolhas do tumba!
• Conteúdos maioritariamente textuais• Intervalo de tempo de 4 anos (2002-2006)• 57 milhões de conteúdos,1.5 TB de dados
– 1º passo: migrar os conteúdos para o novo sistema de arquivo
![Page 44: Pesquisa e Arquivo da Web Portuguesa Daniel Gomes daniel.gomes@fccn.pt FCCN](https://reader030.vdocuments.com.br/reader030/viewer/2022020311/5706384c1a28abb8238f6079/html5/thumbnails/44.jpg)
44
Conclusões
• Arquivo da web nacional está atrasado• Não existe um critério único para delimitar
a web portuguesa– Espalhada fora do domínio .PT
• Um arquivo necessita de ser pesquisável eficientes ou a informação arquivada “morre” por estar inacessível
• Arquivar a web tem interesse nacional• Arquivar a web é complexo• Arquivar a web portuguesa é possível