arquivar a web - visibilidade.netvisibilidade.net/daniel/docs/presentations/... · pr sobre arquivo...

Post on 10-Nov-2018

221 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Arquivar a WebDaniel Gomes

http://www.arquivo.pt

Arquivar a Web

1.Porquê?2.Como?3.Colaborar!

Internet originou invenções para transmitir informação

Web passou a ser ferramenta de publicação

1. Transmissão de informação entre cientistas– Transmissão de dados– Transmissão termina com recepção da informação

2. Publicação em larga escala

Problema: informação publicada na Web é efémera

• Acessível durante pouco tempo• Passado 1 ano

– 80% dos conteúdos foram alterados ou desapareçam (Ntoulas, 2004)

Quem se lembra da Expo 98?

Quando o Figo ganhou o prémio de melhor jogador?

Mas isso foi há “muito” tempo…www.publico.pt num dia

www.publico.pt no dia seguinte

O modelo de publicação na Web está incompleto

• Faltam Arquivos que garantam persistência de acesso à informação ao longo do tempo

Surge assim o interesse pela criação de Arquivos da Web

• 1996 – Internet Archive (Mundial)• 1996 – Kulturarw (Suécia)• 2001 – Nedlib (UE)

– Digital Deposit (Portugal)• 16 países com iniciativas nacionais• 2006 – Tomba (Portugal/FCUL)• 2007 – Arquivo da Web Portuguesa

(Portugal/FCCN)

Casos de uso para Arquivos da Web

• Jornalista documenta artigo• Webmaster recupera versão perdida de página• Historiador analisa documentos digitais• Utilizador da Web visita Favorito quebrado

• Outros?

Arquivar a WebComo?

Depósito imposto ao autor

• Analogia com depósito legal clássico− Imaturidade/inexistência de tecnologias

• Custos elevados para autores− Difícil de impor legalmente− As leis têm fronteiras, a Internet não.

• Analogia com motores de busca− Tecnologia adaptável

• Custo de mais 1 visitante

Recolha activa pelo Arquivo

Como é feita a recolha?

index.html

contacts.html about.html

• Automática a partir de um conjunto de endereços

• Iterativamente são seguidas ligações e arquivados os conteúdos

O que arquivar?

E se esta adolescente se tornar numa…

• Cantora famosa?(que era “marrona”)

• Nobel da Física? (que tinha dificuldade em Matemática)

Devemos arquivar este blog?

• Qualquer critério de selecção é subjectivo• Tudo pode ser interessante• Tentar arquivar o máximo possível

Arquivos da Web já guardam a informação publicada

• Falta garantir acesso eficiente à informação arquivada

Wayback Machine

Implica conhecer endereço onde estava a informação

Queremos é “Googlar” o passado!

Googlar o passado é diferente

Presente• Conteúdos online

– Redirecção para a Web actual

• Pesquisas por termo • Apresentação de

resultados dentro de umadimensão temporal

Passado• Conteúdos offline

– Reprodução de conteúdo arquivado

• Pesquisa por <termo, intervalo de tempo>

• Apresentação de resultados dentro de múltiplas dimensões temporais

“Pequenas” diferenças que implicam grandes alterações

Caso de estudoAplicação do “PageRank”

num arquivo da Web

PageRank: pressupostos

• Cada página é identificada por um endereço único (URL)

• Páginas importantes se recebem:– Muitas ligações– Ligações de páginas importantes

Cálculo de “PageRank”

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB 7

URLC

1URLD

8URLE

tempo

Cálculo de PageRank sobre arquivo

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB

URLC

URLD

URLE

tempo

6URLA

6URLA

6URLA

1URLB

1URLB

1URLB

URLC

URLC

URLC

URLD

URLE

URLE

URLD

Computação de PageRank dados históricos é pesada

2003

2004

2005

2006

2007

2008

2009

6URLA

1URLB

URLC

URLD

URLE

tempo

6URLA

6URLA

6URLA

1URLB

1URLB

1URLB

URLC

URLC

URLC

URLD

URLE

URLE

URLD

Ligações inter-temporais

• URLE é importante em 2009?– Apenas 1 ligação em 2009– Maioria das ligações recebidas

entre 2003 e 2005– Conteúdo pode ter mudado

completamente

• Temos que adaptar PageRank ao arquivo– Apenas ligações dentro do

“mesmo tempo”– Recolhas não são instantâneas– “Mesmo tempo” significa:

• Mesmo dia, mês, ano?2003

2004

2005

2006

2007

2008

2009

tempo

20URLE

1URLB

1URLA

2URLC

4URLE

5URL

1URLA

Solução do Arquivo: mesmo mês

2003

2004

2005

2006

2007

2008

2009

tempo

20URLE

1URLB

1URLA

2URLC

1URLE

1URL

1URLA

Mesmo mês

Mesmo mês + Não considera ligações para o passado nem para o futuro

+ Menos ligações => computação mais leve

- É necessário agrupar versões por mês

- Porém...

Acumulação de ligações provenientes no mesmo mês do

mesmo URL

PR sobre arquivo • Sempre o mesmo URLAque aponta para o URLB

• URLA é arquivado frequentemente– Jornal diário

• URLB é arquivado 1 vez por ano– Página da editora

7/10/2004

8/10/2004

9/10/2004

tempo

18URLB

6URLA

6URLA

6URLA

Solução do Arquivo: apenas a versão do URL com data mais próxima

7/10/2004

8/10/2004

9/10/2004

tempo

6URLB

6URLA

6URLA

6URLA

Como avaliar as nossas “soluções”?

• Nenhuma será perfeita– Podem melhorar ou piorar os resultados

• Avaliação é obrigatória• Recuperação de Informação convencional

– Text REtrieval Conference• Conjunto de dados (.GOV)• Conjunto de pesquisas

– Número de baixas durante a guerra no Iraque

• Conjunto de respostas relevantes – Identificadores das páginas

– Permite avaliar comparativamente as “soluções”

Problema: não há bancadas de testes para dados temporais

• A Web é recente, não tinha história– Problema novo!

• Aproximação adoptada– Criar uma bancada para dados Web temporais

(proposta de mestrado)• Procure resultados acerca das baixas na guerra

do Iraque de 90-91– Analisar logs das pesquisas

• Nº cliques nas posições cimeiras

Muitos problemas a resolver na pesquisa temporal

União faz a força: Archive-Accessproject

– Liderado pelo Internet Archive– Criação/adaptação de ferramentas: Heritrix, NutchWAX

NutchWAX não está pronto-a-usar

• Versão PT– Inexistente

• Grafismo– Pouco cuidado

• Resposta– 40M URLs, >20s

• Relevância– Baixa

AWP: NutchWAX + 2 anos de trabalho

• Versão PT– OK– Correcção de charsets

• Grafismo– Melhoria de

usabilidade

• Resposta– 130M URLs, <5s

Melhoria no acesso a conteúdos arquivados

• Teste– Acesso à página arquivada do http://parlamento.pt/

de 18 Janeiro 2001– http://www.webpagetest.org/– AWP vs. Internet Archive

• Resultado– AWP: 9s vs. Internet Archive: 28s

• Porém– AWP tem menos carga

AWP: NutchWAX + 2 anos de trabalho

• Relevância– Reestruturação dos

índices para guardarem mais características das páginas

• nº de ligações recebidas

– Novo algoritmo de ordenação

Distância entre termos passou a ser considerada

• Pesquisa: Presidente República

1. “O Presidente do clube…um espectador disse que era uma república das bananas”

2. “O Presidente da República comunicou que…”

• O resultado 2 passou a ser considerado mais relevante

E ainda…

Integração de colecções externas

2009

2008

2005

2003

2001

Colaborar!

rARC: Todos podemos colaborar!

Cliente rARC

Cliente rARC

Cliente rARC

Servidor rARC Repositório de conteúdos

Recuperar cópias

Cliente rARC

Cliente rARC

Cliente rARC

Servidor rARC Repositório de conteúdos

Estimativas e resultados iniciais

• PCs normais têm 100 GB de disco

• 4,5 milhões de portugueses usam a Internet

• Se cada um contribuir com 10% (10 GB)– 4,5M contribuidores (10%) 45 PB 22 500

recolhas

– 45 000 (0,1%) 450 TB 225 recolhas

• 1 recolha da Web portuguesa = ~ 2TB─ Já temos uma replicada!

─ Média de 21 GB doados por contribuidor

Como aderir?

Contribuidores

Localização das cópias

Colaborar todos os dias

• Seguir recomendações para autores– Não esconder ligações– Usar formatos adequados

• Sugerir sítios web portugueses para arquivo• Fornecer conteúdos históricos

•Divulgar!

Desafios e projectos

• Pesquisa de imagens• Classificação automática de conteúdos• Bancada de teste para resultados de pesquisas

– Para saber mais: www.arquivo.pt/propostas

Conclusões

• Arquivar a Web é importante• Não basta guardar a informação publicada• Garantir que se mantém acessível

Todos podemos colaborar

www.arquivo.ptDaniel Gomes

Obrigado pela atenção

top related