tirando o chapéu à wikipédia: a coleção do págico e o cartola · i lista de respostas...

16
Cole¸c˜ ao P´ agico - Constru¸c˜ ao Cole¸c˜ ao P´ agico - Constitui¸ ao Cartola - Constitui¸ ao e Carateriza¸c˜ ao Conclus˜ oes Tirando o chap´ eu ` a Wikip´ edia: A cole¸ ao do P´ agico e o Cartola Alberto Sim˜ oes, Lu´ ıs Costa e Cristina Mota Coimbra 17 de Abril de 2011 Tirando o chap´ eu ` a Wikip´ edia: A cole¸c˜ ao do P´ agico e o Cartola

Upload: truongkhanh

Post on 27-Jan-2019

214 views

Category:

Documents


0 download

TRANSCRIPT

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Tirando o chapeu a Wikipedia:A colecao do Pagico e o Cartola

Alberto Simoes, Luıs Costa e Cristina Mota

Coimbra17 de Abril de 2011

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Introducao

I O uso da Wikipedia (real) como colecao para o Pagico eimpensavel:

I inconstancia nos conteudos;I liberdade de edicao;

I Imprescindıvel preparar uma colecao oficial para osparticipantes;

I Sintaxe MediaWiki complexa e pouco comum, pelo quepreferıvel disponibilizar colecao num formato mais comum.

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Construcao da Colecao: Fonte

I Copia Estatica de 25 de Abril de 2011;

I Disponıvel em:http://dumps.wikimedia.org/ptwiki/20110425/

I Versao da Wikipedia num unico documento XML;

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Construcao da Colecao: Ferramentas

I MediaWiki::DumpFile para processar, e percorrer os artigosconstantes no documento XML;

I mwlib para a transformacao em XHTML;

I Ferramentas caseiras Perl;

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Construcao da Colecao: Fluxo de Dados

TemplatesDatabase

WikipediaSnapshot

< / >

CacheTemplates

ApplyTemplates

InterpolatedWikipediaSnapshot

< / >

WikipediaDatabase

CacheTemplates

Cycle allPages

RenderXHTML

XHTMLDocuments

< / >< / >

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Problemas

I As ferramentas disponıveis estao preparadas para a versaoinglesa da Wikipedia;

I A versao portuguesa traduz alguns namespaces, o que faz comque essas ferramentas nao saibam processar macros ou comogerar URL.

I O tratamento completo de macros e complicado e moroso,pelo que se optou por esquecer alguns macros complicados(nomeadamente, infoboxes).

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Distribuicao por Tipo de Documento

Tipo No de documentos

Paginas de pre-definicao 32 900Paginas de desambiguacao 5 006Paginas de redirecao 574 077Paginas de audiovisuais 9 678Artigos (e anexos) 856 005

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Tamanhos dos artigos

no de formas no docs percentual]0, 5] 1 0.00%

]5, 1042[ 541 628 78.54%]1042, 2075[ 87 789 12.73%]2075, 3108[ 26 527 3.85%]3108, 4141[ 11 931 1.73%]4141, 5176[ 6 501 0.94%]5176, 6232[ 3 946 0.57%]6232, 7378[ 2 711 0.39%]7378, 8707[ 1 989 0.29%

]8707, 10256[ 1 691 0.25%]10256, 12439[ 1 447 0.21%]12439, 15585[ 1 256 0.18%]15585, 21968[ 1 139 0.17%

]21968,∞] 1 063 0.15%

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Constante atualizacao da Wikipedia

2004$2005$2006$2007$2008$2009$2010$2011$

0$

20000$

40000$

60000$

80000$

100000$

120000$

140000$

160000$

1$ 2$ 3$ 4$ 5$ 6$ 7$ 8$ 9$ 10$ 11$ 12$

2004$

2005$

2006$

2007$

2008$

2009$

2010$

2011$

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

O Cartola

Pacote de recursos publicosproduzidos no decurso da organizacao do Pagico.

Disponıvel emhttp://www.linguateca.pt/Cartola/

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Cartola: conteudo (I)

I colecao do Pagico, de 681.058 documentos da wikipediaportuguesa de 25 de abril de 2011

I colecao de topicos do Pagico (xml, txt)

I monte das respostas avaliadas

I subcolecao do monte do Pagico

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Cartola: conteudo (II)

I lista de respostas corretas e justificadas, sem as respetivasjustificacoes

I lista de respostas corretas e justificadas, com as respetivasjustificacoes

I lista de respostas consideradas corretas independentemente deestarem bem justificadas

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Documentos de resposta corretos por topico

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

% documentos resposta corretos apenas na Wikipedia PT

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Topicos vs numero de documentos de resposta corretosID Topico # Docs19 Tribos indıgenas que vivem na Amazonia. 95

147 Museus em capitais de paıses lusofonos 62144 Locais referidos n’ ”Os Lusıadas” 51

79 Povos indıgenas brasileiros considerados extintos. 50

106 Vice-reis da India Portuguesa 48(...)

110 Polıticos da Africa lusofona que estudaram na UniaoSovietica

2

54 Igrejas do Rio de Janeiro construıdas por irmandadesou confrarias de negros.

1

132 Deputados da FRELIMO 1116 Escritores mocambicanos que receberam o Premio Ca-

moes1

55 Escritores estrangeiros que visitaram Portugal no seculoXIX e que publicaram descricoes das suas viagens

1

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola

Colecao Pagico - Construcao Colecao Pagico - Constituicao Cartola - Constituicao e Caraterizacao Conclusoes

Conclusoes

I Uma nova avaliacao conjunta merece nova colecao, nao sopela atualidade do conteudo, como tambem pela possibilidadede se conseguir um melhor compromisso na geracao dosdocumentos XHTML.

I Com a disponibilizacao do recurso Cartola(http://www.linguateca.pt/Cartola/) pretendemos queo trabalho e a experiencia no Pagico possa ser o maisproveitosa possıvel para quem estiver interessado nas areasabordadas pelo Pagico.

Tirando o chapeu a Wikipedia: A colecao do Pagico e o Cartola