arquivar a web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · pr sobre arquivo...

58
Arquivar a Web Daniel Gomes http://www.arquivo.pt

Upload: lenhu

Post on 10-Nov-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Arquivar a WebDaniel Gomes

http://www.arquivo.pt

Page 2: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Arquivar a Web

1.Porquê?2.Como?3.Colaborar!

Page 3: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Internet originou invenções para transmitir informação

Page 4: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Web passou a ser ferramenta de publicação

1. Transmissão de informação entre cientistas– Transmissão de dados– Transmissão termina com recepção da informação

2. Publicação em larga escala

Page 5: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Problema: informação publicada na Web é efémera

• Acessível durante pouco tempo• Passado 1 ano

– 80% dos conteúdos foram alterados ou desapareçam (Ntoulas, 2004)

Page 6: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Quem se lembra da Expo 98?

Page 7: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Quando o Figo ganhou o prémio de melhor jogador?

Page 8: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Mas isso foi há “muito” tempo…www.publico.pt num dia

www.publico.pt no dia seguinte

Page 9: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

O modelo de publicação na Web está incompleto

• Faltam Arquivos que garantam persistência de acesso à informação ao longo do tempo

Page 10: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Surge assim o interesse pela criação de Arquivos da Web

• 1996 – Internet Archive (Mundial)• 1996 – Kulturarw (Suécia)• 2001 – Nedlib (UE)

– Digital Deposit (Portugal)• 16 países com iniciativas nacionais• 2006 – Tomba (Portugal/FCUL)• 2007 – Arquivo da Web Portuguesa

(Portugal/FCCN)

Page 11: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Casos de uso para Arquivos da Web

• Jornalista documenta artigo• Webmaster recupera versão perdida de página• Historiador analisa documentos digitais• Utilizador da Web visita Favorito quebrado

• Outros?

Page 12: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Arquivar a WebComo?

Page 13: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Depósito imposto ao autor

• Analogia com depósito legal clássico− Imaturidade/inexistência de tecnologias

• Custos elevados para autores− Difícil de impor legalmente− As leis têm fronteiras, a Internet não.

• Analogia com motores de busca− Tecnologia adaptável

• Custo de mais 1 visitante

Recolha activa pelo Arquivo

Page 14: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Como é feita a recolha?

index.html

contacts.html about.html

• Automática a partir de um conjunto de endereços

• Iterativamente são seguidas ligações e arquivados os conteúdos

Page 15: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

O que arquivar?

Page 16: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

E se esta adolescente se tornar numa…

• Cantora famosa?(que era “marrona”)

• Nobel da Física? (que tinha dificuldade em Matemática)

Page 17: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Devemos arquivar este blog?

• Qualquer critério de selecção é subjectivo• Tudo pode ser interessante• Tentar arquivar o máximo possível

Page 18: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Arquivos da Web já guardam a informação publicada

• Falta garantir acesso eficiente à informação arquivada

Page 19: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Wayback Machine

Implica conhecer endereço onde estava a informação

Page 20: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Queremos é “Googlar” o passado!

Page 21: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Googlar o passado é diferente

Presente• Conteúdos online

– Redirecção para a Web actual

• Pesquisas por termo • Apresentação de

resultados dentro de umadimensão temporal

Passado• Conteúdos offline

– Reprodução de conteúdo arquivado

• Pesquisa por <termo, intervalo de tempo>

• Apresentação de resultados dentro de múltiplas dimensões temporais

“Pequenas” diferenças que implicam grandes alterações

Page 22: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Caso de estudoAplicação do “PageRank”

num arquivo da Web

Page 23: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

PageRank: pressupostos

• Cada página é identificada por um endereço único (URL)

• Páginas importantes se recebem:– Muitas ligações– Ligações de páginas importantes

Page 24: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Cálculo de “PageRank”

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB 7

URLC

1URLD

8URLE

tempo

Page 25: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Cálculo de PageRank sobre arquivo

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB

URLC

URLD

URLE

tempo

6URLA

6URLA

6URLA

1URLB

1URLB

1URLB

URLC

URLC

URLC

URLD

URLE

URLE

URLD

Page 26: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Computação de PageRank dados históricos é pesada

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB

URLC

URLD

URLE

tempo

6URLA

6URLA

6URLA

1URLB

1URLB

1URLB

URLC

URLC

URLC

URLD

URLE

URLE

URLD

Page 27: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Ligações inter-temporais

• URLE é importante em 2009?– Apenas 1 ligação em 2009– Maioria das ligações recebidas

entre 2003 e 2005– Conteúdo pode ter mudado

completamente

• Temos que adaptar PageRank ao arquivo– Apenas ligações dentro do

“mesmo tempo”– Recolhas não são instantâneas– “Mesmo tempo” significa:

• Mesmo dia, mês, ano?2003

2004

2005

2006

2007

2008

2009

tempo

20URLE

1URLB

1URLA

2URLC

4URLE

5URL

1URLA

Page 28: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Solução do Arquivo: mesmo mês

2003

2004

2005

2006

2007

2008

2009

tempo

20URLE

1URLB

1URLA

2URLC

1URLE

1URL

1URLA

Mesmo mês

Mesmo mês + Não considera ligações para o passado nem para o futuro

+ Menos ligações => computação mais leve

- É necessário agrupar versões por mês

- Porém...

Page 29: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Acumulação de ligações provenientes no mesmo mês do

mesmo URL

PR sobre arquivo • Sempre o mesmo URLAque aponta para o URLB

• URLA é arquivado frequentemente– Jornal diário

• URLB é arquivado 1 vez por ano– Página da editora

7/10/2004

8/10/2004

9/10/2004

tempo

18URLB

6URLA

6URLA

6URLA

Page 30: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Solução do Arquivo: apenas a versão do URL com data mais próxima

7/10/2004

8/10/2004

9/10/2004

tempo

6URLB

6URLA

6URLA

6URLA

Page 31: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Como avaliar as nossas “soluções”?

• Nenhuma será perfeita– Podem melhorar ou piorar os resultados

• Avaliação é obrigatória• Recuperação de Informação convencional

– Text REtrieval Conference• Conjunto de dados (.GOV)• Conjunto de pesquisas

– Número de baixas durante a guerra no Iraque

• Conjunto de respostas relevantes – Identificadores das páginas

– Permite avaliar comparativamente as “soluções”

Page 32: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Problema: não há bancadas de testes para dados temporais

• A Web é recente, não tinha história– Problema novo!

• Aproximação adoptada– Criar uma bancada para dados Web temporais

(proposta de mestrado)• Procure resultados acerca das baixas na guerra

do Iraque de 90-91– Analisar logs das pesquisas

• Nº cliques nas posições cimeiras

Page 33: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Muitos problemas a resolver na pesquisa temporal

Page 34: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

União faz a força: Archive-Accessproject

– Liderado pelo Internet Archive– Criação/adaptação de ferramentas: Heritrix, NutchWAX

Page 35: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

NutchWAX não está pronto-a-usar

• Versão PT– Inexistente

• Grafismo– Pouco cuidado

• Resposta– 40M URLs, >20s

• Relevância– Baixa

Page 36: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

AWP: NutchWAX + 2 anos de trabalho

• Versão PT– OK– Correcção de charsets

• Grafismo– Melhoria de

usabilidade

• Resposta– 130M URLs, <5s

Page 37: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Melhoria no acesso a conteúdos arquivados

• Teste– Acesso à página arquivada do http://parlamento.pt/

de 18 Janeiro 2001– http://www.webpagetest.org/– AWP vs. Internet Archive

• Resultado– AWP: 9s vs. Internet Archive: 28s

• Porém– AWP tem menos carga

Page 38: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

AWP: NutchWAX + 2 anos de trabalho

• Relevância– Reestruturação dos

índices para guardarem mais características das páginas

• nº de ligações recebidas

– Novo algoritmo de ordenação

Page 39: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Distância entre termos passou a ser considerada

• Pesquisa: Presidente República

1. “O Presidente do clube…um espectador disse que era uma república das bananas”

2. “O Presidente da República comunicou que…”

• O resultado 2 passou a ser considerado mais relevante

Page 40: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

E ainda…

Page 41: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente
Page 42: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Integração de colecções externas

Page 43: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

2009

Page 44: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

2008

Page 45: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

2005

Page 46: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

2003

Page 47: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

2001

Page 48: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Colaborar!

Page 49: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

rARC: Todos podemos colaborar!

Cliente rARC

Cliente rARC

Cliente rARC

Servidor rARC Repositório de conteúdos

Page 50: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Recuperar cópias

Cliente rARC

Cliente rARC

Cliente rARC

Servidor rARC Repositório de conteúdos

Page 51: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Estimativas e resultados iniciais

• PCs normais têm 100 GB de disco

• 4,5 milhões de portugueses usam a Internet

• Se cada um contribuir com 10% (10 GB)– 4,5M contribuidores (10%) 45 PB 22 500

recolhas

– 45 000 (0,1%) 450 TB 225 recolhas

• 1 recolha da Web portuguesa = ~ 2TB─ Já temos uma replicada!

─ Média de 21 GB doados por contribuidor

Page 52: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Como aderir?

Page 53: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Contribuidores

Page 54: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Localização das cópias

Page 55: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Colaborar todos os dias

• Seguir recomendações para autores– Não esconder ligações– Usar formatos adequados

• Sugerir sítios web portugueses para arquivo• Fornecer conteúdos históricos

•Divulgar!

Page 56: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Desafios e projectos

• Pesquisa de imagens• Classificação automática de conteúdos• Bancada de teste para resultados de pesquisas

– Para saber mais: www.arquivo.pt/propostas

Page 57: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

Conclusões

• Arquivar a Web é importante• Não basta guardar a informação publicada• Garantir que se mantém acessível

Todos podemos colaborar

Page 58: Arquivar a Web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · PR sobre arquivo • Sempre o mesmo URL A que aponta para o URL B • URL A é arquivado frequentemente

www.arquivo.ptDaniel Gomes

Obrigado pela atenção