como publicar informação preservável para o futuro...condições de licenciamento que permitam a...

52
Como publicar informação preservável para o futuro

Upload: others

Post on 10-Sep-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Como publicar informação

preservável para o futuro

Page 2: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Funcionamento do Arquivo.pt

Page 3: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Funcionamento do Arquivo.pt

Recolha Reprodução

1 2

Page 4: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Recolha é feita de forma automática por um Robot

Page 5: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Reprodução de páginas preservadas

Page 6: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Nem sempre corre tudo bem!

Page 7: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

6recomendações para publicar informação

preservável

Page 8: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Identifique corretamente a data de publicação (#1)

Page 9: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Qual a data de publicação?

Page 10: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Identificar corretamente a data de publicação (#1)

Page 11: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Autorize a recolha de conteúdos importantes

através do Robots Exclusion Protocol (#2)

Page 12: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

DN.pt: como era (2016)

Page 13: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

DN.pt: como foi preservado

Page 14: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Robots Exclusion Protocol é a origem do problema de

preservação

User-agent: *

Disallow: /common/scripts/

Disallow: /common/css/

Disallow: /search/

User-agent: *

Disallow: /common/scripts/

Disallow: /common/css/

Disallow: /search/

http://www.dn.pt/robots.txt

Page 15: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

"Disallowing crawling of Javascript or CSS files in your site’s robots.txt directly

harms how well our algorithms render and index your content and can result in

suboptimal rankings."

https://webmasters.googleblog.com/2014/10/updating-

our-technical-webmaster.html?m=1

Page 16: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

B-on.pt: como foi preservado

Page 17: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

User-agent: *

Disallow: /administrator/

Disallow: /cache/

Disallow: /components/

Disallow: /editor/

Disallow: /help/

Disallow: /images/

Disallow: /includes/

Disallow: /language/

Disallow: /mambots/

Disallow: /media/

Disallow: /modules/

Disallow: /templates/

Disallow: /installation/

Disallow: /dmdocuments/

Exclusões pré-definidas pelos Sistemas de Gestão de Conteúdos

(CMS) causaram problemas

Page 18: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

B-on.pt: Robots exclusion protocol

configurado corretamente

Page 19: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

O Sistema de Recolha do Arquivo.pt está devidamente identificado.

Permitir o acesso ao Arquivo.pt

User-agent: Arquivo-web-crawler

Disallow:

User-agent: Arquivo-web-crawler

Disallow:

Page 20: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Utilize um endereço para cada conteúdo

(#3)

Page 21: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Conteúdos escondidos atrás de formulários

Page 22: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Conteúdos escondidos atrás de formulários

Page 23: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Conteúdos escondidos atrás de formulários

Page 24: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Mapa do Site facilita acesso a pessoas

(usabilidade) e máquinas (SEO)

Page 25: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Mantenha o mesmo endereço ao longo

do tempo (#4)

Page 26: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Problema: quebra de histórico devido a mudança

de endereço do site

http://site.pt

http://novo-site.pt

Page 27: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Mantenha o histórico redirecionando os endereços

antigos para os novos

http://iscte.pt http://iscte-iul.ptRedireciona

Page 28: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Utilize formatos adequados para

preservação (#5)

Page 29: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Problema: Utilização de Flash

Page 30: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

“It breaks with the Web’s fundamental

interaction principles”

Page 31: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

http://www.occupyflash.org/

Page 32: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Condições de licenciamento que permitam a sua utilização.

Normas emitidas por um organismo oficial (W3C).

Documentados abertamente através de uma especificação pública.

Lidos e escritos por múltiplas plataformas de software, incluindo

código-aberto.

Amplamente usados.

Escolha formatos com:

Page 33: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Formatos adequados para preservação

Texto

HTML, XHTML ou XML

Open Document Text (.odt)

PDF/A-1 segundo a norma ISO 19005-1 (.pdf)

Imagem

PNG (.png)

JPEG2000

Video

AVI sem compressão (.avi)

Page 34: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Formatos não adequados para preservação

Texto:

Microsoft Word (.doc)

Imagem:

Macromedia Flash (*.swf)

PhotoShop (.psd)

Vídeo:

Windows Media Video (.wmv)

Page 35: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Utilize meta-dados para descrever os

conteúdos (#6)

Page 36: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Quem é o autor da página?

Qual a data da publicação?

Page 37: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Utilizar meta-dados (Dublin Core)

<meta name="DC.Type" content="Text" />

<meta name="DC.Creator" content="Daniel Gomes" />

<meta name="DC.Date.Created" content="2009-08-21" />

<meta name="DC.Date.Modified" content="2009-11-10" />

Esta informação resume, enriquece ou complementa os conteúdos, produzindo

assim um potencial incremento de informação.

Computadores conseguem utilizar esta informação.

Page 38: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Recomendações para evitar problemas de

preservação

1. Identifique corretamente a data de publicação

2. Use corretamente o protocolo de exclusão de robots

3. Use um endereço para cada conteúdo

4. Mantenha endereços ao longo do tempo

5. Utilize formatos adequados para preservação

6. Publique metadados para enriquecer os conteúdos

Page 39: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Ferramentas para avaliar se uma página é

preservável

Archive Ready

Page 40: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

http://archiveready.com

Page 41: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

http://archiveready.com

Page 42: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Crie o seu Arquivo da WebWeb Recorder

Page 43: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

https://webrecorder.io

Page 44: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente
Page 45: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Selecionar

1 2

Capturar

WARC

WARC (Web ARChive)

ISO 28500:2017

WARC

3

Reprodução

Page 46: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Oldweb.todayLook and Feel do passado

Page 47: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

http://oldweb.today

Page 48: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente
Page 49: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Robustify

Minimize os erros derivados de ligações quebradas,

redirecionando para recursos arquivados

Page 50: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

robustify.arquivo.pt: ligações quebradasredireciona para páginas preservadas @Arquivo.pt

Utilizadores seguem a ligação para uma página

preservada no Arquivo.pt

Ligação quebrada

Páginas Web com ligações quebradas

Page 51: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Como usar o Robustify no seu site

<script src="http://robustify.arquivo.pt/robustifyArquivoPT.js"></script>

<script> robustify({}); </script>

Inserir o seguinte snippet de código no seu site:

Page 52: Como publicar informação preservável para o futuro...Condições de licenciamento que permitam a sua utilização. Normas emitidas por um organismo oficial (W3C). Documentados abertamente

Recomendações:

arquivo.pt/recomenda

[email protected]