capa - marco.uminho.ptmarco.uminho.pt/~macedo/netcensus/netcensus-abr2002.doc · web viewcom a...

Projecto de Colaboração entre o

Observatório das Ciências e Tecnologias e o

Departamento de Informática da Universidade do Minho

Para obtenção de Estatísticas do WWW em Portugal

Relatório de

Abril de 2002

Índice

ÍNDICE.........................................................................................................................1

LISTA DE FIGURAS..................................................................................................2

LISTA DE TABELAS..................................................................................................3

INTRODUÇÃO............................................................................................................4

WEB MEDIDA.............................................................................................................5

O SISTEMA NETCENSUS........................................................................................7

EXPLICAÇÃO DAS ESTATÍSTICAS....................................................................10

ESTATÍSTICAS DA 1ª RECOLHA.........................................................................14

PÁGINAS HTML.......................................................................................................19

ESTATÍSTICAS DA 2ª RECOLHA.........................................................................21

PÁGINAS HTML.......................................................................................................26

ANÁLISE DAS RECOLHAS....................................................................................27

ALGUMAS REFERÊNCIAS EXTERNAS.............................................................30

CONCLUSÃO............................................................................................................32

EQUIPA DO NETCENSUS......................................................................................35

REFERÊNCIAS.........................................................................................................36

Glossário e acrónimos..................................................................................................38

Observatório das Ciências e das TecnologiasUniversidade do Minho - Departamento de Informática

1

Lista de figuras

FIGURA 1: Classificação do web de acordo com o dinamismo e dificuldade dos robots 5FIGURA 2: Fluxo de trabalho do NetCensus 7FIGURA 3: Descarga de recursos web para disco local 8FIGURA 4: Distribuição dos hostnames por servidor na primeira recolha 15FIGURA 5: Quantidade e volumes relativos dos recursos por tipo na primeira recolha 16FIGURA 6: Volume relativo dos dados por tipo e data de última modificação 18FIGURA 7: Número relativo de recursos por tipo MIME e data de última modificação (1ª recolha) 19FIGURA 8: Ocorrências nas páginas HTML da primeira recolha 20FIGURA 9: Quantidade e volumes relativos dos recursos por tipo na segunda recolha 23FIGURA 10: Número relativo de recursos por tipo MIME e data de última modificação (2ª Recolha) 25FIGURA 11: Volume relativo dos recursos por tipo MIME e data de última modificação (2ª Recolha) 25FIGURA 12: Ocorrências nas páginas HTML da segunda recolha 26FIGURA 13: Erros durante a 1º Recolha 29FIGURA 14: Distribuição do software servidor 31


2

Lista de tabelas

TABELA 1:Dados gerais da primeira recolha 14TABELA 2: Rácios gerais da primeira recolha 14TABELA 3: Recursos web colectados por tipo MIME na primeira recolha 15TABELA 4: Tamanho médio por tipo na primeira recolha 16TABELA 5: Número de recursos por tipo MIME e data de última modificação (1ª Recolha) 17TABELA 6: Volume dos recursos por tipo MIME e data de última modificação em GB (1ª Recolha) 17TABELA 7: Dados gerais da segunda recolha 21TABELA 8: Rácios gerais da segunda recolha 21TABELA 9: Recursos colectados, por tipo MIME, na segunda recolha 22TABELA 10: Variações percentuais no número de recursos recolhidos por tipo MIME 22TABELA 11: Tamanho médio por tipo na segunda recolha e variação percentual 23TABELA 12: Número de recursos por tipo MIME e data de última modificação (2ª Recolha) 24TABELA 13: Volume dos recursos por tipo MIME e data de última modificação em GB (1ª Recolha) 24TABELA 14: Dados do estudo à intersecção de ambas as amostras 27


3

Introdução

O objectivo deste projecto é a concepção e concretização dum sistema automático (hardware, software e comunicações) para obtenção de indicadores estatísticos para caracterização da Web em Portugal e a respectiva evolução. Como se verá mais adiante, esta caracterização é um processo bastante complexo devido ao volume e diversidade da informação disponibilizada.

Devido a esta complexidade, o sistema construído limita-se para já a percorrer parte da porção estática e do Web e uma pequena parte do Web dinâmico. Percorrer todo o espaço Web e analisá-lo automaticamente é ainda um objectivo a médio prazo.

Desde o início do projecto estudou-se exaustivamente o problema a resolver, foi realizada a concepção e concretização de componentes importantes do sistema e realizaram-se duas recolhas. Cada recolha tentou ser o mais exaustiva possível e o número de recursos colectados e urls visitados foi bastante elevado. Por esse facto as duas amostras são estatisticamente representativas.

Devido à escalas envolvidas a análise deste dados não é trivial. O facto de não existirem dados sobre o tamanho real do universo em estudo leva a que seja difícil avaliar as recolhas e extrapolá-las correctamente. Por este facto, em muitos casos não é possível tirar grandes conclusões a respeito dos dados apresentados, valendo estes por si só.

Comparando as duas recolhas , observa-se que se tratam de amostras distintas do Web portuguesa. A par do dinamismo do Web, e as modificações ocorridas durante o período entre as duas recolhas as diferenças só podem ser explicadas pela existência de falhas e pelo facto das duas recolhas terem visitado apenas um fracção do Web em Portugal.

Mesmo sem certezas sobre o que realmente se está a passar com o processo, os dados obtidos preenchem já uma base de dados de tamanho considerável e antevêem um sistema poderoso para o estudo da web Portuguesa, estudo esse que pode ir muito além da obtenção de dados sobre o conteúdo, mas que também pode abranger a própria estrutura da rede e sua evolução.


4

Web Medida

O robot usado na obtenção das medidas seguidamente apresentadas tem algumas limitações e por esse facto o percurso realizado inclui apenas uma parte do espaço Web. Tal deve-se ao tipo de dinamismo existente na Web e pela forma como os robots o conseguem manipular.

Na figura 1 é identificada a porção do Web que pode ser percorrida actualmente pelo Robot. Trata-se apenas da porção estática do Web, que corresponde à descarga pura e simples dos ficheiros armazenados, e à parte dinâmica que depende apenas do tempo. Esta parte dinâmica é, normalmente, acedida através de urls que invocam programas presentes no servidor. Estes são os responsáveis pela informação disponibilizada através desses urls. Mesmo esta parte da web não foi totalmente percorrida, na realidade evitou-se percorrê-la sempre que possível pois a forma de


5

Dinâmico

Temporal Baseado no cliente

Formulário Estático

Tipo de Conteúdo

Mecanismo de geração

Ficheiros Armazenados

Programas no Servidor

Código embebido (executado no servidor)

Código embebido (executado no cliente)

Web Escondido

Web Personalizado

Não Aplicável

Não Aplicável

Figura 1: Classificação do Web de acordo com o dinamismo e dificuldade dos robots (retirada de [4])

caracterizar este tipo de web ainda não é muito clara. Assim na primeira recolha não se percorrem urls dinâmicos que contenham parâmetros (identificáveis pela presença de ‘?’ no url), os urls dinâmicos sem parâmetros são difíceis de distinguir, ou mesmo impossíveis, dos urls estáticos. Durante a segunda recolha percorreram-se alguns urls dinâmicos, o objectivo era testar o modelo actual neste tipo de web, mas como se verá existem várias razões para que a recolha destes urls seja evitável, pois torna a análise dos dados finais bastante mais complexa.

Do Web dinâmico não é descarregada a parte cujo dinamismo é provocado pelo código embebido no cliente, como aliás acontece com todos os robots (a vermelho). Para além disso, e nesta fase não é colectada uma parte do Web Personalizado e o Web escondido, que exige alguma supervisão dum operador. Como exemplo de partes correspondentes ao Web Personalizado apresenta-se sub-espaços web a que normalmente temos acesso apresentando credenciais e do Web escondido aquela que só temos acesso preenchendo formulários como é o caso de páginas mantidas em BDs.

De acordo com artigos da literatura a maior parte do Web é dinâmico ( 80% segundo Laurence and Giles, 1997) e a tendência é aumentar, com a existência de ferramentas cada vez mais sofisticadas. Por este facto, os dados a seguir apresentados e que correspondem apenas à parte estática do Web português têm que ser considerados com cautela. O Google [6], por exemplo, já percorre uma parte do Web escondido e personalizado em modo supervisionado. Trata-se de tecnologia que é necessário analisar se pretender-se uma contagem mais precisa do Web Português.

Uma outra parte do Web que não é para já percorrida é a acessível usando o HTTPS, protocolo que por enquanto não faz parte da máquina protocolar utilizada. Há que acrescentar para a parte em falta os servidores web em Portugal registados em domínios como .com .org e .net , etc isto é servidores fora da sub-árvore .pt. Para resolver este último caso basta arranjar heurísticas que permitam navegar nesses sub-domínios. O percurso do web seguro, tem como requisitos a inclusão do protocolo https na máquina protocolar e necessita de estudo adicional.

Resta apenas referir que não foram visitados o conjunto de URLs protegidos pelo ficheiro de exclusão de robots.


6

O sistema NetCensus

O sistema NetCensus ainda é uma plataforma em desenvolvimento, que na sua fase final têm o objectivo de percorrer grande parte da web Portuguesa e obter diversos indicadores estatísticos.

Na figura 2 é apresentado o fluxo de trabalho a realizar pela plataforma NetCensus. Os componentes com um fundo acinzentado ainda não foram concretizados. Na secção em que se apresentou uma classificação do Web quanto ao seu dinamismo, já se explicou o que é o Web escondido e personalizado. A BD relacional está em fase de carregamento.

O NetCensus na sua versão final vai consistir num sistema que precisa de ser assistido por um operador para ajudar o Robot a percorrer uma parte do Web dinâmico [10].


7

Figura 2: Fluxo de trabalho no NetCensus

Estão neste instante concretizados os componentes que permitem contar as páginas estáticas ou com dinamismo dependente do tempo em sub-domínios de PT. Um gerador de sementes que usa informação disponível no Serviço de Resolução de Nomes( DNS) e que também pode usar, após a primeira recolha, informação da BD de estatísticas [9] com URLs ou endereços IP visitados em recolhas anteriores. O gerador de sementes pode ainda obter informação usando ligações com sistemas intermediários (routers) onde estejam disponíveis endereços de rede da maior parte dos ISPs em Portugal. Essa informação pode ser usada para, percorrendo exaustiva ou aleatoriamente a parte do endereço correspondente ao host, realizar correspondências reversas no Serviço de Resolução de Nomes (DNS) para obtenção de nomes de máquinas que são posteriormente verificadas para a presença de servidores Web. Essa estratégia permite obter sites em sub-domínios fora da sub-árvore de pt. Usando as várias estratégias apresentadas anteriormente consegue-se

obter um bom conjunto de sementes.

Com base nas sementes, são realizados percursos que usam essas sementes como ponto de partida. Todas as páginas desse percurso que cumprirem um determinado conjunto de restrições (em que a principal é a estarem no sub-domínio pt) são descarregadas para disco local. Cada página é processada para extracção de referências e da informação considerada relevante para efeito das estatísticas. Essas


8

Imagem 1

Disco Local

Web Site

Imagem 2

Imagem 3

Imagem 1

Disco Local

Web Site

Imagem 2

Imagem 3

Figura 3: Descarga de Recursos Web para disco local

referências são colocadas em filas de espera para posterior processamento. Mantém-se uma estrutura de dados com a assinatura dos URLs já descarregados para evitar que o objecto por ele referenciado seja descarregado mais que uma vez. Como o mesmo objecto pode ser referenciado por mais que um URL, mantém-se também uma estrutura de dados com assinatura dos conteúdos já processados, para não processar várias vezes o mesmo conteúdo [1,6]. Esta última informação pode dar indicações a respeito do nível de replicação dos conteúdos entre os sites Web em Portugal. Para se saber se determinado conteúdo é uma réplica nacional dum original estrangeiro, podem ser usadas algumas heurísticas.

O processo de descarga carrega suavemente cada servidor, estabelecendo a sequência de pedidos de forma delicada (um pedido de cada vez e com intervalo de tempo entre pedidos parametrizável). O método utilizado é colocar todos os URLs correspondentes ao mesmo host na mesma fila de espera, que é tratada sequencialmente por um mesmo fio de execução, sendo parametrizável o tempo mínimo entre dois pedidos ao mesmo servidor.

O objectivo da descarga é armazenar em disco local uma imagem do espaço Web a analisar. Se forem feitas descargas periódicas é possível dispor de várias imagens do espaço em análise em instantes de tempo diferente, podendo obter informação sobre a sua variação ao longo do tempo (ver figura 3).

A informação a respeito das várias transações realizadas pelo Robot é igualmente armazenada porque permite obter dados de acessibilidade para cada recurso (tempo médio de acesso), organização e ISP, entre outras informações. Guardam-se todas as transações, quer sejam bem sucedidas ou não.


9

Explicação das estatísticas

Embora a informação recolhida seja vasta, as análises feitas até agora tentam classificar, de uma forma geral, o que existe na web. O objectivo final da recolha são os recursos existentes na web percorrida. Estes recursos são obtidos durante a recolha e correspondem a páginas HTML, imagens, programas ou qualquer outro recurso existente na web e portanto são os objectos que se estudam mais profundamente.

Os locais donde provém esses recursos, também podem ser estudados, embora sejam para já só contabilizados. A localização de um recurso pode ser realizada directamente pelo url ou então recorrendo a informação mais técnica obtida durante as recolhas, como os endereços IP dos servidores visitados.

As análises são gerais e dizem respeito a todo o universo percorrido. Análises restritas (por domínio, endereço IP, etc) podem ser calculadas da informação recolhida a pedido (o universo é demasiado extenso para se calcularem todas elas).

Para eliminar ambiguidades, é definida a seguir a terminologia utilizada:

Host ou máquina– Qualquer máquina ligada à rede. Estas podem ser simples clientes da rede (computadores pessoais usados para navegar), máquinas que prestam algum tipo de serviço (servidores) ou um misto destes dois tipos. Todos os hosts são identificados univocamente por um ou mais endereços de rede (endereço IP). As nossas análises exploram as máquinas com servidores http, nada sabem sobre máquinas que não corram http ou as simples clientes.

Endereço IP – Endereço numérico de rede atribuído a uma interface IP (placa de rede) de uma máquina. Este endereços são únicos para cada interface e é através deles que o encaminhamento da informação entre máquinas é realizado. É possível, e até bastante comum, que uma mesma máquina tenha mais de um endereço IP, no entanto tal não é frequente em servidores http, pelo que podemos dizer quantas máquinas, com serviço de http, visitámos olhando para a quantidade de endereços IP visitados.

Servidor – Toda a máquina ligada à rede que presta algum tipo de serviço (HTTP, FTP, GOPHER, etc). Os servidores em estudo são servidores HTTP. Cada servidor é identificado pelo endereço IP, sendo o serviço específico identificado por uma porta (no caso do HTTP usa-se normalmente a porta 80).

DNS e hostnames – É o Serviço de resolução de nomes que torna humanamente mais simples a identificação das máquinas ao mapear os endereços IP (conjunto de números) numa estrutura baseada em nomes


10

(ex: www.sapo.pt). Este mapeamento é realizado numa árvore em que os nodos se denominam domínios, e as folhas hostnames. Um domínio não têm uma máquina específica associada, servindo para estruturar o nome (ex: sapo.pt), sendo o hostname (ex: www.sapo.pt) um nome atribuído a uma determinada máquina. De notar que a uma mesma máquina podem estar atribuídos vários hostnames. A nossa análise nada diz, por agora sobre os domínios, estudando porém o número de hostnames visitados.

Website – Espaço de web alojado sobre um determinado hostname.

Recurso – Uma entidade independente que é disponibilizada pelos servidores. Estes podem ser páginas HTML, ficheiros de áudio ou vídeo, aplicações binárias ou qualquer outro tipo de informação armazenada num formato digital.

URL (Uniform Resource Locator) – Endereço que identifica univocamente um determinado recurso de rede. Este é subdividido em partes que identificam o tipo de serviço que disponibiliza o recurso (HTTP, FTP, etc..), o hostname do host em que este se encontra, a porta IP do serviço e um caminho para chegar a esse recurso nesse host.

URL estático – Neste tipo de urls o recurso é identificado pelo caminho para o ficheiro que o armazena. Ou seja um url estático aponta directamente para um ficheiro presente no sistema de ficheiros de um determinado servidor. De notar que, infelizmente, existem certos urls dinâmicos (ver seguinte) que não conseguimos, tecnicamente, classificar como tal, logo estes urls dinâmicos são, por nós, considerados estáticos.

Url dinâmico – Estes não apontam directamente para um ficheiro que armazena um recurso, mas sim para um programa que quando invocado retorna um determinado recurso. Normalmente estes urls, além de identificarem o programa que disponibiliza os recursos, também contém parâmetros que permitem ao programa saber que recurso disponibilizar. Infelizmente não conseguimos classificar este tipo de urls quando eles não têm parâmetros, pois o seu formato é semelhante ao de um url estático, assim os urls dinâmicos sem parâmetros são classificados como estáticos.

Fingerprint (Sumário digital) – Certos algoritmos (ver [17]) permitem obter um sumário digital de um ficheiro (ex: um texto), garantindo que dois ficheiros com conteúdo distinto têm, necessariamente, sumários digitais distintos. Utilizando algoritmos deste tipo é possível identificar os recursos únicos existentes na web.


11

http://www.sapo.pt/

http://www.sapo.pt/

Recurso único – É comum encontrar na web réplicas de recursos, ou seja urls que apontam para a mesma informação. Estas podem representar o mesmo recurso físico, armazenado num determinado lugar, ou representar cópias distintas dum mesmo recurso. Define-se recurso único como a informação que gera um determinado fingerprint, independentemente de esta ser fisicamente a mesma ou não.

Web estática – Conjunto dos urls estáticos e recursos por eles apontados.

Tal como já foi dito, devido à escala do universo analisado, as análises são gerais e em grande parte baseiam-se em contagens de objectos, por exemplo o número de servidores visitados. Os recursos recolhidos também são de especial interesse, nestes contabilizam-se os seus volumes (tamanho em bytes) e realiza-se uma classificação dos mesmos por tipo e data de última alteração.

A classificação por tipo de recurso é realizada recorrendo-se ao seu tipo MIME associado. Todos os recursos descarregados pelo robot têm associado um tipo MIME. Este classifica o tipo de média presente no recurso e permite saber como interpretá-lo. Um tipo mime têm a forma de “tipo/subtipo”, o tipo é bastante genérico e permite fazer uma classificação simples do recurso. Diz-se simples pois o conteúdo real do recurso não pode ser facilmente deduzido do tipo MIME, por exemplo um documento postscript ou um arquivo zip são ambos classificados como sendo do tipo aplicação (application/postscript e application/zip), pois são recursos que têm de ser processados por aplicações próprias. Os tipos usados na classificação são definidos em [16].

Texto – Contém todo o tipo de informação textual. Directivas, que quando processadas por uma aplicação, enriquecem o aspecto final do texto podem estar presentes no documento, mas tal aplicação não é necessária para se ter uma ideia geral do conteúdo. As páginas HTML são classificadas como texto.

Imagem – Este tipo necessita de um dispositivo visual para ser visualizado (monitor, impressora, etc). Grande parte dos formatos de imagens existentes (jpeg, gif, bmp) são classificados neste tipo.

Áudio – Necessita de um dispositivo sonoro para ser reproduzido. Grande parte dos formatos sonoros existentes são classificados neste tipo.

Vídeo – Requer a capacidade de mostrar imagens em movimento, normalmente usando software e hardware especializados. Grande parte dos formatos de vídeo (avi, mpeg) é classificado neste tipo.

Aplicação – Outro tipo de informação, normalmente binária ou para ser processada por uma aplicação. Este tipo é muito abrangente, desde


12

documentos codificados num formato próprio (postscript, pdf, winword) até aplicações reais ou ficheiros comprimidos.

Outros - Todos os outros tipos.

A data de última alteração de um recurso indica quando o ficheiro (presente no disco rígido do servidor) que armazena o recurso foi alterado. Embora este dado não indique quando um recurso apareceu na web, tenta-se usá-lo como uma estimativa para tal.

Pela sua importância, as páginas HTML tiveram tratamento especial e foram obtidos alguns dados específicos.


13

Estatísticas da 1ª recolha.

A primeira recolha decorreu entre Julho e Agosto de 2001, durando 45 dias. A taxa de descarregamento foi bastante elevada.

Como se vê na tabela 1 esta recolha visitou quase seis mil máquinas distintas (endereços IP), que albergavam perto de vinte e dois mil websites (hostnames).

Nestes websites foram vistos perto de onze milhões de urls que referenciavam quase sete milhões de recursos únicos. Na tabela 2 apresentam-se alguns rácios directamente resultantes destes dados.

Não existe muito a dizer sobre estes rácios, excepto que a distribuição concreta dos hostnames por máquina mostra-se no gráfico apresentado na figura 4. Neste pode- verificar-se que 43 máquinas (ou os respectivos endereços IP) hospedam, cada uma, mais que 50 nomes de servidores. Em particular, existem três hosts com mais de mil hostnames distintos, 30 máquinas que hospedam entre 100 e 1000 sites e 10 que hospedam entre 100 e 50 sites. Existem para além disso 161 máquinas que suportam entre 10 e 50 sites, 191 com entre 10 e 5, ficando as restantes com entre 2 e 5 nomes e 4305 com um único nome. Os dados relativos a endereços IP por cada nome (máquinas duplicadas para tolerância a faltas ou distribuição de carga) apontam para poucos sites com duas máquinas. As máquinas com mais que 50 sites pertencem na sua maior parte a máquinas de fornecedores de serviço, as com uma dezena de sites pertencem a grandes organizações e as com 2 nomes correspondem na sua maior parte a duas designações para uma mesma máquina (um deles começa quase sempre por www)


14

Dados gerais (1ª recolha)

Quantidade

IP 5.757Hostnames 21.742Urls 11.055.167Urls Estáticos 11.055.167Recursos únicos 6.797.616

Tabela 1: Dados gerais da primeira recolha

Rácios gerais(1ª recolha) RácioHostnames por máquina 3,78Urls estáticos por máquina 1.920,30Urls estáticos por website 508,47Urls estáticos por Recursos únicos 1,63

Tabela 2: Racios gerais da primeira recolha

Figura 4: Distribuição dos hostnames por servidor na primeira recolha

Recursos web colectados por tipo MIME (1ª recolha)

Tipo Número de recursos % Recursos

Volume dos recursos (Gigabytes)

% Volume

Texto 4227571 62,19% 139,03 27,52%Imagem 2079138 30,59% 35,848 7,10%Aplicação 422933 6,22% 281,343 55,69%Audio 63383 0,93% 40,848 8,09%Video 2797 0,04% 7,756 1,54%Outros 1794 0,03% 0,351 0,07%Total 6797616 100% 505,175 100,00%

Tabela 3: Recursos web colectados por tipo MIME na primeira recolha

Tamanho médio por tipo em KB (1ª recolha)Texto Imagem Aplicação Audio Video Outros Global

33 17 665 644 2.773 196 74Tabela 4: Tamanho médio por tipo na primeira recolha

Os recursos únicos recolhidos, o objecto principal em estudo, têm as suas estatísticas de número, volume e tipo coligidas na tabela 3

Podemos ver que grande parte dos dados recolhidos (62%) é constituída por recursos de texto. É nesta percentagem que se encontram as páginas HTML visitadas pelo robot, logo o valor seria o esperável de um robot que usa a mesmas páginas como


15

Figura 5: Quantidade e volumes relativos dos recursos por tipo na primeira recolha

fundamento do seu percurso (é destas que provém os novos urls visitados). As imagens também aparecem em grande número, mostrando o quanto são usadas nas mesmas páginas. Embora não esteja calculado o número destas imagens que está, realmente, embebida em alguma página (fazendo parte da mesma quando um browser compõe a página que vemos), é de esperar que só uma pequena percentagem não o esteja.

A análise da proveniência da pequena percentagem de recursos do tipo aplicação (6%) difícil. Tratam-se de repositórios de software (mirrors, ftp, etc) ou de referências distribuídas pelas páginas percorridas. No entanto 6% traduz-se num recurso do tipo aplicação por cada 10 páginas HTML. Isso significa que os recursos do tipo aplicação não são tão incomuns como a percentagem sugere. Esta situação acontece exactamente em repositórios de software, onde numa única página se

encontram muitas referências para recursos do tipo aplicação, contribuindo para o aumento do rácio, pelo que tudo aponta para que grande parte destes recursos provenham de repositórios de software.

Tal acontecimento contribuiria em muito para o aumento do rácio pelo que tudo aponta para que grande parte destes recursos do tipo aplicação provenha destes repositórios de software.

O número de recursos vídeo, áudio e de outros tipos é muito pequeno, indicando que não é muito provável encontrar este tipo de recursos na web estática.

O cenário muda bastante quando analisamos o volume correspondente. Verifica-se que a maior parte (56%) corresponde à pequena percentagem de recursos do tipo aplicação, sendo a parte produzida pelo grande número de recursos de tipo texto bastante menor (28%). A ínfima percentagem de recursos áudio também produz um volume considerável de dados (8%), superior ao produzido pelos recursos do tipo imagem(7%). O volume produzido pelos recursos vídeo deixa também de ser insignificante(2%).


16

Número de recursos por tipo MIME e data de última modificação (1ª recolha)TIPO até 1997 1997 1998 1999 2000 2001 sem data TOTAL

Texto 62.905 62.879 292.900 309.950 514.731 954.160 2.030.046 4.227.571Imagem 36.785 70.036 166.452 337.336 691.739 771.939 4.851 2.079.138Aplicação 32.403 17.759 34.637 70.829 114.546 147.274 5.485 422.933Audio 480 3.253 4.639 10.980 17.964 22.022 4.045 63.383Video 121 24 131 427 941 1.093 60 2.797Outros 935 178 170 152 149 192 18 1.794TOTAL 133.629 154.129 498.929 729.674 1.340.070 1.896.680 2.044.505 6.797.616

Tabela 5: Número de recursos por tipo MIME e data de +ultima modificação (1ª recolha)

Volume dos recursos por tipo MIME e data de última modificação em GB (1ª recolha)TIPO até 1997 1997 1998 1999 2000 2001 sem data TOTAL

Texto 3,048 2,146 4,475 8,404 34,951 84,837 1,169 139,03Imagem 0,633 1,12 2,985 6,326 11,919 12,764 0,1 35,848Aplicação 6,684 8,778 17,28 44,33 88,691 109,802 5,778 281,343Audio 0,071 0,934 1,634 5,549 10,121 22,539 0 40,848Video 0,168 0,084 1,052 0,989 2,801 2,662 0 7,756Outros 0,075 0,008 0,005 0,022 0,021 0,221 0 0,351Total 10,679 13,07 27,431 65,62 148,504 232,825 7,047 505,176

Tabela 6: Volume dos recursos por tipo MIME e data de última modificação em GB (1ª recolha)

Estes valores não são de todo inesperados, pois dependem largamente do volume médio por tipo de recurso, apresentados na tabela 4.

As figura 5 mostra as distribuições, de número e volume, dos recursos por tipo.

Numa tentativa de estimar a idade dos documentos recolhidos, construíram-se tabelas baseadas na data da última modificação fornecida pelo servidor HTTP. Esta data torna-se, no entanto, bastante imprecisa devido à natureza da web. Nesta existem várias cópias de certos recursos, levando a que não se possa associar uma data precisa ao recurso único. A data que o robot associa a um determinado recurso depende de onde este estava hospedado quando foi visto pela primeira vez. Esta informação é ainda menos esclarecedora pelo facto de haver um grande número de documentos, do tipo texto mais uma vez, que não exibem qualquer data. Pela inspecção feita a alguns URLs, trata-se em grande parte, de páginas geradas dinamicamente, para as quais só o tipo MIME é disponibilizado. Os dados apresentam-se nas tabelas 5 e 6.


17

Figura 6: Volume relativo dos dados por tipo e data de última modificação

Nos gráficos 6 e 7, os recursos sem data não são representados para aumentar a clareza. As percentagens representadas dizem respeito ao total de recursos com data (4.753.111) e respectivo volume(498,129 GB).


18

Figura 7: Número relativo de Recursos por timo MIME e data de última modificação (1ª recolha)

Páginas HTMLUm subconjunto das páginas Web existentes são as escritas em HTML. As

medidas apresentadas foram obtidas analisando o conteúdo desse subconjunto de páginas.

Interessa caracterizar as páginas HTML existentes em termos dos elementos que as compõem. Nesse sentido seleccionaram-se alguns dados considerados importantes incluídos no gráfico apresentado. Parte dessas estatísticas dão conta do cuidado com que se criam as páginas nomeadamente se incluem o título, autor, descrição, software gerador e a versão HTML. As outras componentes dão conta das páginas que contêm tabelas, imagens e frames permitindo ter uma ideia do formato das páginas.

Por fim, indicam-se páginas com scripts e applets dando uma medida do seu dinamismo. Os formulários são uma medida indicativa de pontos de entrada para partes de web que possam dar acesso a motores de busca, bases de dados e web personalizado.

Como se pode observar foram vistas perto de quatro milhões de páginas, nestas as imagens e tabelas são usadas muito frequentemente (em aproximadamente 80% das páginas). As frames são raramente usadas. Pouco menos de um terço das páginas têm indicação da versão HTML e do software gerador, enquanto apenas 14,2 % aparecem com descrição e 8,5% preenchem o campo autor.


19

3.906.228

3.616.682

916.959

712.182

894.770

1.170.695

1.210.506

32.525

2.337.216

3.189.413

539.706

3.258.630

0 500000 1000000 1500000 2000000 2500000 3000000 3500000 4000000 4500000

Total de Páginas

Com Título

Com Autor

Com Descrição

Com Software gerador

Com versão HTML

Com formulários

Com Applets

Com Scripts

Com Tabelas

Com Frames

Com Imagens

Nº de ocorrências

(83,4%)

(13,8 %)

(81,6%)

(59,8%)

(0,8%)

(31,0%)

(30,0%)

(22,9%)

(18,2%)

(23,5%))

(92,6%)

Figura 8: Ocorrências nas páginas HTML da primeira recolha

Os pontos de entrada para partes mais dinâmicas do Web representam 41% do total de páginas. Quase 30% apresentam formulários permitindo de alguma forma uma personalização dos conteúdos a visualizar ou mesmo acesso a BDs. Relativamente às páginas colectadas aproximadamente 73% não têm a versão HTML especificada, enquanto quase 21% indicam a versão 4.0 e à volta de 6% a versão 3.2. Só 23,5% das páginas preenchem o campo autor.


20

Dados gerais (2ª recolha)2ª recolha

IP 6.156Hostnames 28.133Urls 15.830.609Urls Estáticos 12.300.542

Urls dinâmicos 3.530.067Recursos únicos 9.047.502

Tabela 7: Dados gerais da segunda recolha

Estatísticas da 2ª recolha

Devido a algumas queixas relativas ao tráfego gerado pelo robot nos servidores visitados durante a primeira recolha, abrandou-se ritmo de recolha deste. Assim a segunda recolha durou bastante mais tempo, tendo decorrido entre Novembro de 2001 e Fevereiro de 2002 (90 dias). Numa tentativa de ver o web dinâmico, decidiu-se percorrer também os urls dinâmicos unicamente dependentes do tempo, aqueles que invocam programas no cliente e, no nosso caso específico, os que contém parâmetros (de notar que urls que invoquem programas sem parâmetros são considerados estáticos).

Verificou-se posteriormente que a recolha destes urls dinâmicos não deveria ser feita usando a metodologia usada para os estáticos pela sobrecarga adicional resultante da execução de programas nos servidores. Esta situação foi ainda piorada com a existência de vários nomes para a mesma máquina em sites dinâmicos e o facto da política de delicadeza ser concretizada com base nos nomes. Por todas estas razões, a recolha destes urls dinâmicos foi suspensa e o assunto registrado para estudo posterior.

Como se vê na tabela 7, esta recolha percorreu um pouco mais de seis mil servidores que serviam perto de vinte e oito mil websites. Nestes colectaram-se perto de dezasseis milhões de urls, dos quais uma parte significativa (três milhões e meio) eram dinâmicos. De todos estes urls foram obtidos um pouco mais de nove milhões de recursos únicos.

A tabela 8 mostra os rácios resultantes destes valores.

Os dados gerais correspondentes aos recursos visitados na segunda recolha estão coligidos na tabela 9.


21

Rácios gerais (2ª recolha) RácioHostnames por máquina 4,57

Urls estáticos por máquina 1.998,14Urls estáticos por domínio 437,23

Urls estáticos por Recursos únicos 1,36

Tabela 8: Rácios gerais da primeira recolha

Recursos web colectados (2ª recolha)

Tipo Número de recursos % Recursos Volume dos recursos (Gigabytes) % Volume

Texto 6.032.314 66,674% 181,238 35,962%Imagem 2.523.852 27,896% 46,196 9,167%Aplicação 407.571 4,505% 210,131 41,695%Audio 77.709 0,859% 61,797 12,262%Video 4.075 0,045% 4,445 0,882%Outros 1.981 0,022% 0,163 0,032%Total 9.047.502 100,000% 503,969 100,000%

Tabela 9: Recursos colectados, por tipo MIME, na segunda recolha

Variações percentuais no número de recursos recolhidos

TipoNúmero de recursos (1ª recolha)

Número de recursos (2ª recolha)

Aumento percentual

Texto 4227571 6032314 42,69%

Imagem 2079138 2523852 21,39%

Aplicação 422933 407571 -3,63%

Audio 63383 77709 22,60%

Video 2797 4075 45,69%

Outros 1794 1981 10,42%

Total 6797616 9047502 33,10%

Tabela 10: Variações percentuais no número de recursos recolhidos por tipo MIME

Numa primeira análise pode-se verificar que o número total de recursos únicos vistos na segunda colecta é significativamente superior ao da primeira (mais 33,10%).

Parte desta diferença é justificada pelos urls dinâmicos visitados na segunda recolha. Sabe-se que esta incursão no espaço dinâmico recolheu perto de dois milhões e meio de recursos únicos, dos quais a maior parte são texto e quase todos sem data da última modificação. Este conjunto de recursos, representam aproximadamente 76 Gbytes.

Curiosamente, as diferenças observadas no número de recursos não tem correspondência no volume dos mesmos. Verifica-se até um muito ligeiro abaixamento no número total de Gigabytes descarregados na segunda colecta (de 505 GB para 503 GB). Esta constatação pode ser explicada com base na disparidade existente entre tamanhos médios por tipo de recurso. Recorrendo à tabela 10, que mostra as variações percentuais no número de recursos por tipo recolhidos, verifica-se que todos os recursos, exceptuando os de tipo aplicação, aumentaram em quantidade, por vezes significativamente (texto e vídeo). Mais uma vez este facto é estranho, pois embora os recursos do tipo aplicação, que representam um grande volume de dados, tenham diminuído em quantidade, o mesmo não aconteceu com os recursos de vídeo que aumentaram quase em 50% e estes, segundo a primeira recolha, representam, também, um grande volume de dados.


22

Tamanho médio por tipo em KB (2ª recolha)Texto Imagem Aplicação Audio Video Outros

30 18 516 795 1.091 82Diferença percentual -8,64% 6,16% -22,50% 23,39% -60,67% -58,00%

Tabela 11: Tamanho médio por tipo na segunda recolha e variação percentual em relação à primeira recolha

Vejamos o que aconteceu ao volume médio dos dados para perceber melhor o problema (tabela 11). Nesta verifica-se que os tamanhos médios tanto dos tipos vídeo como aplicação desceram.

A inconstância aparente dos tamanhos médios por tipo, pode justificar a descida do volume dos recursos recolhidos na segunda amostra, mas indicia que ou a web que nós tentamos percorrer muda rapidamente ou então as amostras não são tão exaustivas como se julgavam e resultaram de percursos distintos da web. Um estudo no sentido de compreender o que se passou durante as recolhas é apresentado no capítulo seguinte.


23

Figura 9: Quantidade e volumes relativos dos recursos por tipo na segunda recolha

Depois de tantas disparidades é notável que as relações dos dados de número e volume relativos se mantenham, como mostram os gráficos de número e volumes relativos (figura 9).

Os dados relativos à data de última modificação por tipo, reflectem a subida de número e descida de volume dos recursos (tabelas 12 e 13). Com excepção dos recursos sem data, os relativos a 2001 e claro a 2002 houve diminuição do número e volume dos recursos.

As figuras 10 e 11 mostram os gráficos de número e volume relativos provenientes da segunda recolha. Tal como nos da primeira recolha os recursos sem data não são representados. As percentagens presentes nestes gráficos dizem respeito ao total de recursos com data (5.192.260) e correspondente volume(394,311 GB).


24

Número de recursos web, segundo a data de última modificação, por tipo MIME (2ª recolha)Tipo Até 1997 1997 1998 1999 2000 2001 2002 Sem data TotalTexto 79.540 62.353 169.468 277.268 404.447 1.112.021 91.982 3.835.235 6.032.314Imagem 25.123 68.564 179.751 333.928 597.011 1.283.069 22.358 14.048 2.523.852Aplicação 18.837 14.207 27.080 49.292 83.342 184.530 24.617 5.666 407.571Audio 565 3.358 4.617 9.873 17.178 41.824 250 44 77.709Video 109 27 99 349 1.330 1.967 22 172 4.075Outros 494 186 214 202 168 580 60 77 1.981Total 124.668 148.695 381.229 670.912 1.103.476 2.623.991 139.289 3.855.242 9.047.502

Tabela 12: Número de recursos por tipo MIME e data de última modificação (2ª recolha)

Volume dos recursos web, segundo a data de última modificação, por tipo MIME (Gigabytes) (2ª recolha)Tipo Até 1997 1997 1998 1999 2000 2001 2002 Sem data TotalTexto 1,965 1,202 2,748 5,019 8,543 36,778 15,881 109,103 181,238Imagem 0,368 1,381 3,304 6,349 10,744 23,580 0,306 0,163 46,196Aplicação 4,011 5,703 10,738 22,180 47,883 104,284 14,965 0,367 210,131Audio 0,079 1,007 1,583 5,034 10,498 43,418 0,177 0,000 61,797Video 0,157 0,100 0,174 0,285 1,517 2,147 0,048 0,015 4,445Outros 0,040 0,011 0,007 0,011 0,021 0,061 0,002 0,009 0,163Total 6,621 9,404 18,554 38,879 79,206 210,267 31,380 109,658 503,969

Tabela 13: Volume de recursos por tipo MIME e data de última modificação (2ª recolha)

Páginas HTML


25

Figura 10: Número relativo de recursos por timo MIME e data de última modificação (2ª recolha)

Figura 11: Volume relativo dos recursos por timo MIME e data de última modificação (2ª recolha)

Nesta recolha viram-se 5.616.438 páginas HTML. À semelhança da primeira recolha, caracterizam-se as páginas HTML existentes em termos dos elementos que as compõem.

Mais uma vez, observa-se que imagens e tabelas são usadas muito frequentemente (mais de 80% das páginas). As frames são raramente usadas. Menos de terço das páginas têm indicação da versão HTML, software gerador, descrição e autor.

Devido à parte dinâmica da web visitada, as páginas com scripts e forms sobem em relação à primeira recolha (+54% e +104%).


26

Número de ocorrências em páginas HTML

88%16%

82%64%

2%44%

26%20%

14%14%

91%100%

0 1.000.000 2.000.000 3.000.000 4.000.000 5.000.000 6.000.000

Total

com Titulo

com Autor

com Descrição

com Gerador

com Versão

com Forms

com Applets

com Scripts

com Tabelas

com Frames

com Imagens

Figura 12: Ocorrências nas páginas HTML da segunda recolha

Análise das recolhas

Numa tentativa de perceber as disparidades e surpresas encontradas na segunda recolha, realizaram-se alguns estudos às amostras. Estes envolveram os cálculos de intersecções e uniões entre vários conjuntos de dados (urls, recursos, hostnames, etc) de ambas as amostras. Devido ao facto de a metodologia utilizada considerar as recolhas como informação independente e desta ser, portanto, armazenada em base de dados diferentes, estes cálculos são extremamente lentos, durando horas ou dias.

Uma boa solução para este tipo de problemas seria construir uma base de dados incremental que não considera-se as recolhas como dados independentes, mas sim como a evolução dos mesmos.

Vejamos, na tabela 14, os dados de alguns dos conjuntos criados.

Verifica-se que grande parte dos servidores e hostnames é comum a ambas as amostras.


27

1ª recolha 2ª recolha Diferença percentual Intersecção União Diferença

entre 1ª e 2ªDiferença

entre 2ª e 1ª

IP 5.757 6.156 6,93% 4.884 7.029 873 1.272Hostnames 21.742 28.133 29,39% 20.558 29.317 1.184 7.575Urls 11.055.167 15.830.609 43,20% 6.009.646 20.876.130 5.045.521 9.820.963Urls Estáticos 11.055.167 12.300.542 11,27% 6.009.646 17.346.063 5.045.521 6.290.896Urls dinâmicos 0 3.530.067 N/A 0 3.530.067 0 3.530.067Recursos únicos 6.797.616 9.047.502 33,10% 2.810.044 13.035.074 3.987.572 6.237.458

Intersecção

da 1ª recolhaIntersecção

da 2ª recolhaDiferença

entre 1ª e 2ªDiferença

entre 2ª e 1ª

IP 84,84% 79,34% 15,16% 20,66%Hostnames 94,55% 73,07% 5,45% 26,93%Urls 54,36% 37,96% 45,64% 62,04%Urls Estáticos 54,36% 48,86% 45,64% 51,14%Recursos únicos 41,34% 31,06% 58,66% 68,94%

Tabela 14: Dados do estudo à intersecção de ambas as amostras

A segunda recolha percorreu quase a totalidade de hostnames vistos na primeira (95%) e grande parte dos servidores (85%). Como seria de esperar, devido à primeira recolha ser menor que a segunda, a primeira recolha não viu uma percentagem tão grande de servidores e hostnames vistos na segunda.

O mesmo não se verifica, no entanto, nem a nível de urls nem dos recursos por eles recolhidos. A segunda recolha percorreu pouco mais de metade (54%) dos urls e recolheu nem metade dos recursos vistos na primeira (41%). Dado que verificámos ter percorrido grande parte dos hostnames e servidores da primeira recolha, era de esperar que pelo menos os urls vistos nesta fossem também vistos na segunda, principalmente porque se tratam de urls estáticos

Acontece que a própria natureza da web pode explicar o que está a acontecer, o facto de esta evoluir a muitos níveis com mudanças de endereços IP, reestruturação de domínios, alterações de domínio e mudanças rápidas nos próprios conteúdos (e respectivos recursos) tornam a comparação de ambas as recolhas, recorrendo unicamente aos seus números totais, bastante difícil.

O real problema tanto pode estar nas falhas que surgem no funcionamento do robot, na evolução da web ou na metodologia usada. O mais certo é que uma combinação destes factores tenha conduzido a estes resultados.

Sabemos que o robot não insiste durante muito tempo com um url em falha. Vejamos o gráfico que mostra as falhas que houve durante a primeira recolha (figura 13). Neste verificamos que 2,7% dos urls resultaram num erro. Este valor não é de desprezar de forma alguma num processo desta natureza visto que, em hipótese, a não visita de um url pode levar a não ver uma quantidade indeterminada e ilimitada de novos urls. O problema das falhas é relevante e têm de ser resolvido no sentido de tornar os percursos o mais exaustivos possível.

Perceber como a evolução da web afecta amostras distintas também é importante. O facto de existirem, mais uma vez, vários factores em jogo não ajuda. São várias as consequências possíveis da evolução da web; urls que mudam aparecem como dois casos distintos nas recolhas, urls cujo conteúdo muda levam a um url comum e dois recursos distintos, urls que desaparecem aparecem somente na primeira recolha e muitos outros casos tornam o uso dos dados numéricos, para compreender o que realmente se passou, num problema delicado. Um dado interessante, é o de que nos conjuntos de urls e recursos comuns, aproximadamente 87% das relações url – recurso se mantém entre recolhas, mostrando que esta parte da web se manteve de facto constante.


28

A própria metodologia usada têm uma falha grave que não permite determinar o que aconteceu aos urls vistos na primeira recolha e não na segunda. Um url não referenciado em nenhuma página nunca surge como um possível url a visitar na segunda recolha. Isto leva a que seja impossível determinar se ele ainda existe ou não.

Dado isto existem duas grandes hipóteses, ambas de demonstração complexa, que podem justificar os dados obtidos. Os percursos realizados em ambas as amostras não foram exaustivos, e portanto só viram parte dos sites visitados ou, a outra hipótese, mesmo a parte visitada da web, que supostamente é a mais constante, se altera a um ritmo elevado, levando a que o conjunto de urls e recursos existentes seja distinto em ambas as recolhas.


29

41

48540

122482

86330

5600

33395

296388

0 50000 100000 150000 200000 250000 300000 350000

Erro de leitura de dados

Transferência de dadosinterrompida

Conexão recusada

Sem rota para o host

Erro no Socket

Exclusões do Robot (robots.txt)

Total de Erros

2,7 % do total de

descargas

Figura 13: Erros durante a 1º recolha

Algumas referências externas.

No sentido de tentar avaliar a percentagem do espaço visitado e a quantidade de dados recolhidos estudaram-se algumas referências externas. Os dados obtidos destas não são os mais indicados para comparações, pois provém de sistemas com objectivos distintos do nosso.

Segundo o RIPE (http://www.ripe.net) existem em Portugal 257.000 máquinas ligadas à Internet. Devido a certas particularidades do protocolo TCP/IP, nem todas as máquinas realmente ligadas à rede aparecem nesta contabilização, pois muitas das máquinas estão ligadas através de técnicas que permitem serem vistas, do exterior da rede local em que se encontram, como uma única máquina. Assim este número contabilizado pelo RIPE, representa de facto o número de endereços IP activos atribuídos a Portugal.

Destas 257.000 máquinas o RIPE classifica 9.860 como servidores web. Para obter este valor, o RIPE usa o serviço de nomes (DNS) e obtém todos os hostnames (domínios http) começados por www. A nossa segunda recolha visitou bastante mais do que este valor, contabilizando 23696 hostnames começados por www (cerca de 84% dos domínios http vistos). Este nosso valor é bastante mais elevado que o do RIPE, mas é de notar que o RIPE usa uma metodologia totalmente distinta para obter os dados e também é susceptível a certas falhas, algumas das quais podem provocar erros bastante grandes.

Segundo a fccn (http://www.fccn.pt) o número de domínios de topo têm crescido em Portugal e novas hierarquias de domínios surgiram recentemente. Os valores concretos dos dados não é significante para o nosso caso, mas o facto de terem surgido hierarquias pode justificar algumas das disparidades nos valores obtidos, pois uma mudança de domínio implica uma mudança na estrutura do url. No entanto o número de hostnames pertencentes a estes novos domínios contabilizado por nós é bastante baixo (cerca de 200).

O netcraft (http://www.netcraft.com) obtém estatísticas muito interessantes sobre os servidores presentes na internet. No entanto a sua simplicidade só nos permitiu obter um dado interessante e comparável a dados nossos, a distribuição de software servidor http por sites na Internet segue uma distribuição aproximada à calculada por nós (figura 14).


30

http://www.netcraft.com/

http://www.fccn.pt/

http://www.ripe.net/

Todos os outros sites explorados foram motores de busca, alguns permitem-nos obter o número de páginas Portuguesas indexadas. Infelizmente tal não aconteceu com o sapo pois as suas procuras não nos permitiram obter um número só relativo a páginas Portuguesas, este poderia ser o melhor indicador comparativo para o número de páginas vistas.

A técnica usada nos motores de busca foi a de limitar os domínios a Portugal (.pt) e procurar páginas que não contivessem uma sequência de caracteres aleatória (e definitivamente não pertencente à linguagem portuguesa e, provavelmente, a qualquer outra).

Assim o valor máximo de páginas Portuguesas indexadas foi obtido no altavista (http://www.altavista.com) , 1.741.232, bem menor que o nosso 5.616.438 da segunda recolha. O google (http://www.google.com) apenas indexa 908.000 páginas.


31

Figura 14: Distribuição do software servidor

http://www.google.com/

Conclusão

Embora o robot tenha percorrido uma grande quantidade de urls e, consequentemente, recolhido uma quantidade considerável de recursos, fazer qualquer tipo de extrapolação para toda a web Portuguesa é problemático pelo facto de não podermos considerar em rigor as duas recolhas como estatisticamente independentes e também por corresponderem a imagens do web em períodos distintos. No entanto, o tamanho das amostras é sem dúvida suficientemente grande para estas serem consideras amostras representativas da web portuguesa.

O facto de as análises estarem a ser realizadas na base de dados temporária não têm facilitado a obtenção de dados, pois todos os cálculos realizados sobre esta são extremamente lentos e de difícil implementação. A utilização da BD temporária é determinada pelo facto de carregamento da BD final não poder, pelo menos para já, ser realizado em tempo útil. Trata-se dum problema cuja resolução está dependente quer da afinação do software como da eventual migração para uma plataforma de software mais adequada. A afinação do desempenho da BD tem como ponto de partida a utilização de uma ferramenta para análise de desempenho da actual plataforma.

A base de dados final, bastante mais complexa que a actual mas relacional, vai permitir obter dados mais ricos e específicos. Poder-se-á estudar a evolução de certas partes restritas da web e fazer procuras complexas sobre os recursos encontrados. Em particular poderá ser extraída informação bastante interessante das hiperligações entre as páginas html. O grande volume de dados correspondente às ligações exige períodos longos de carregamento quer na BD temporária como final.

Por estimativas realizadas o carregamento da BD final demora algumas semanas.

Para já, e face aos recursos disponíveis quer em termos de capacidade de computação e largura de banda quer de software, visitar exaustivamente o Web é um objectivo bastante ambicioso.

A utilização duma biblioteca software já existente para o robot que não foi concebida com este tipo de aplicação no horizonte e a inexistência de algumas ferramentas auxiliares, apontam para a necessidade da concepção e concretização dum robot de raiz suportado por um cluster de PCs e maior largura de banda para ligação à Internet. Trata-se alias do tipo de abordagem usada pelos diversos fornecedores de serviço de busca de informação. As especificações quer da plataforma serão baseadas na experiência adquirida mas pode-se dizer para já que será necessário um robot incremental que percorra grande parte do Web escondido e a Base de Dados de


32

registo de estatísticas será histórica, isto é usada para as diversas visitas aos mesmos conteúdos.

Trata-se duma área de investigação onde é necessário investir recursos para se conseguir a médio prazo um sistema mais fiável de obtenção de estatísticas para o Web em Portugal.

Por exemplo, o robot usa um algoritmo comum e funciona bastante bem para uma única recolha. Mas para estudar a evolução da web este mostra-se demasiado simples pois não contempla a informação recolhida anteriormente.

De facto, os problemas surgem quanto se tenta relacionar as amostras. Com a metodologia actual é difícil compreender que factores podem ter conduzido a resultados tão dispares. Não há a certeza de que as disparidades provenham essencialmente de falhas durante o processo ou da própria evolução da web, mas é necessário estudo adicional.

Uma afirmação que se pode desde já fazer é que, na fase actual de concretização, o robot não permite percorrer exaustivamente o Web estático. Vários são os factores que dificultam este objectivo sendo a escala um dos principais obstáculos. Para além disso, a escala não nos permite descortinar com clareza a razão pela qual alguns dos URLs visitados na primeira recolha ficaram de fora na segunda.

Além disso, com as habituais limitações nos recursos de rede, é necessário um período relativamente grande para realizar a colecta (vários meses). Isto leva a que as estatísticas que se produziram neste relatório expressem, no máximo, uma aproximação do que foi a web estática durante o período de recolha.

A captura duma estatística referente a um determinado momento é impossível de fazer, pois ocorrem necessariamente mudanças significativas na rede e no espaço de informação a colectar durante a recolha. De facto, este dinamismo leva a que não faça sentido falar em recolhas exaustivas (mesmo na ausência de falhas), pois durante estas já novos urls, referenciados por documentos já vistos, foram criados.

Uma boa alternativa a este método é usar uma abordagem incremental. Nesta, toda a informação recolhida é armazenada numa única base de dados, não havendo definição concreta das recolhas, a recolha tanto pode ser ininterrupta (o robot não pára, visitando e revisitando os urls) ou por fases (à semelhança do que agora se faz), o que se garante é que todos os urls conhecidos e ainda válidos estão minimamente actualizados na base de dados, permitindo assim a obtenção de estatísticas o mais actualizadas e exaustivas possível. Se a mesma base de dados for concebida para não perder informação, é possível construir um histórico da web Portuguesa, onde, para além de se calcularem estatísticas referentes ao presente, também é possível determinar quais eram estas num determinado momento passado.

A realizar-se, um percurso do web dinâmico deve ser muito bem pensado. A estratégia actual pode não servir de muito para perceber a evolução deste pois, ao contrário do web estático, um recurso apontado por um url pode mudar sempre que é


33

invocado, pois a mais pequena alteração do conteúdo realmente apontado pelo url leva a que este seja considerado como um novo recurso (pex, páginas html dinâmicas com a data em que foram geradas).

Porém parece claro que é neste web dinâmico que se encontram a maior parte dos recursos existentes, porque apenas um relaxamento (em período limitado) para inclusão de algum tipo de URLs dinâmicos conduziu a um aumento em mais de três milhões de páginas HTML, estando ainda por determinar o número real de recursos que provieram, directa ou indirectamente, dessas páginas.

De qualquer forma, o sistema simples desenvolvido até agora já permite a obtenção de dados que, aparentemente, não existem disponíveis noutros sítios. Os dados apresentados são muito genéricos, pois não era possível apresentar dados referentes a universos restritos, como a domínios ou máquinas, pois a escala é tal que tais dados têm de ser calculados a pedido. Assim que a base de dados final esteja carregada muitos outros tipos de análises podem ser realizadas, de facto se existir um site que faça uso desta base de dados dinamicamente pode-se criar um serviço não só de estatísticas actuais e passadas da web, mas também de estudos complexos sobre os recursos que nela existem ou sobre a sua topologia.


34

Equipa do NetCensus

Este projecto está a ser concebido e desenvolvido por um grupo multidisciplinar integrado por pessoas com experiência em redes de computadores, serviços de informação Internet e bases de dados.. Tratam-se de investigadores do Departamento de Informática, integrada por 3 PhD, 1 MsC e 1 investigador, dos Grupos de Comunicações por Computador (GCOM) e Inteligência Artificial (IA): Alexandre Santos (GCOM), António Costa (GCOM), Joaquim Macedo (GCOM), Orlando Belo (IA) e Leopoldo Silva (GCOM).


35

Referências

1. Mercator: A Scalable, Extensible Web Crawler, Technical Report, Compaq Systems Research Center, Palo Alto, CA,USA , 1995

2. On Near-Uniform URL Sampling, Monika Henziger, Allan Heyton, Michel Mitzenmacher and Marc Najork. WWW00 Conference, Amesterdam, Holland, 2000.

3. Measuring Index Quality using Random Walks on the Web, Monika Henziger, Allan Heyton, Michel Mitzenmacher and Marc Najork. WWW99 Conference, Canada, 1999.

4. Crawling the Hidden Web, Sriram Raghavan, Hector Garcia Molina,

Technical Report, Stanford University, USA

5. Breadth-first search crawling yields high-quality pages, Marq Najork, Janet L.Wiener, Technical Report, Compaq Systems Research Center, Palo Alto, CA,USA

.6. The anatomy of large scale hipertextual search engine, L.Page and S.Brin,

WWW98 Conference, Brisbane, Australia, 1998. 7. Archiving the Internet, B.Kahle, Technical Report, Internet Archive, 1997.

8. Sphinx: a framework for creating personal, site-specific web crawlers, WWW98 Conference, Brisbane, Australia, 1998.

9. ParaSite: Mining the Structural Information on the World-Wide Web, Ellen Spertus, PhD Thesis, MIT, USA, 1998.

10. Machine Learning, Tom Mitchel, Mc-Graw Hill, 1997.11. Web Characterization Terminology & Definitios Sheet, Brian Lavoie, Henrik Nielsen, W3C

Working Draft, Maio de 1999.

12. Web Characterization Metrics, Brian Lavoie, Technical Report, OCLC, Maio 1999.

13. The OCLC Web Characterization Project, Ed O’Neil, Brain Lavoie e Pat MacLain, W3C Web Characterization Group Conference, Maio de 1998.

14. Caracterização da Informação WWW na RCCN, Maria João Nicolau, Joaquim Macedo e António Costa, WorkShop de Redes da RCCN, Março de 1997.


36

15. Measuring the Web, Tim Bray, 5th WWW Conference, Paris, 1996.

16. rfc 2046 - Multipurpose Internet Mail Extensions (MIME) Part Two: Media Types, N. Freed e N. Borenstein, Network Working Group, November 1996

17. rfc 1321 - The MD5 Message-Digest Algorithm, R. Rivest, Network Working Group, April 1992


37

Glossário e acrónimos

IP (Internet Protocol) – Protocolo de rede usado por todas as máquinas ligadas à Internet.

ISP (internet Service Provider) – Fornecedor de Serviço Internet.

MIME (Multipurpose Internet Mail Extensions) - trata-se duma norma Internet que especifica como as mensagens devem ser formatadas para serem trocadas entre diferentes sistemas de correio electrónico. Trata-se dum formato bastante flexível que permite que se troca qualquer tipo de ficheiro ou documento através duma mensagem de correio electrónico. Especificamente as mensagens MIME podem conter texto, imagens, áudio, vídeo ou formatos específicos para aplicações. É um formato muito parecido com o usado para trocas de informação entre um servidor e um cliente Web, usando o protocolo HTTP. Para os principais tipos de dados MIME (texto, imagens, áudio, vídeo, aplicação, etc, ) podem ainda ser definidos subtipos. Por exemplo o html é um subtipo do tipo texto e o msword é um subtipo de aplicação.

PIX (Portuguese Internet eXchanger) – Serviço de Interligação entre os ISPs em Portugal, gerido pela FCCN.

RCTS (Rede Ciência, Tecnologia e Sociedade) – gerida pela FCCN para ligação à Internet de instituições de ensino. A RCTS2 é uma rede mais rápida para ligação de instituições de ensino universitário e laboratórios de investigação.

RIPE (Réseaux IP Européens) – é uma organização à escala europeia participada pelos ISPs na Europa para assegurar alguma coordenação administrativa. Para além de manter bases de dados com informação de administração de redes produz algumas estatísticas sobre as redes dos vários países.

Rota – Percurso a realizar para chegar a determinado destino.

Robot – Programa que percorre o WWW usando um algoritmo recursivo que vai processando cada página e extraindo os URLs referenciados para continuar o seu processamento. O processamento a realizar depende da aplicação.

Script – Programas escritos em várias linguagens embebidos ou referenciados em páginas HTML que podem ser executados no cliente ou no servidor.

Servidor – Máquina de maior porte onde residem as aplicações que prestam serviços a clientes

que normalmente residem em PCs dos utilizadores.

Sistema Intermediário (Router) – Equipamentos que são responsáveis pelo encaminhamento dos pacotes originados pelos hosts (Sistemas finais ou hosts) desde a origem até ao destinatário.Socket – dispositivo do sistema operativo usado pelas aplicações para comunicação entre processos na mesma máquina e entre máquinas diferentes.


38

URI (Uniform Resource Locator) – nome que identifica univocamente os recursos Web. URL (Uniform Resource Locator) – nome que indica a localização ou endereço dos recursos Web na rede.


39

capa - marco.uminho.ptmarco.uminho.pt/~macedo/netcensus/netcensus-abr2002.doc · web viewcom a...

Documents