fábio mascarenhas e silva [email protected] 27setembro2007 universidade federal de...

36
Fábio Mascarenhas e Silva [email protected] 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de Ciência da Informação Tópicos Especiais em TI 2 http://toti2.wordpress.com

Upload: nelson-alvaro-sintra

Post on 07-Apr-2016

217 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Fábio Mascarenhas e [email protected]

27setembro2007

Universidade Federal de PernambucoCentro de Artes e Comunicação

Departamento de Ciência da Informação

Tópicos Especiais em TI 2

http://toti2.wordpress.com

Page 2: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Assuntos de hojeInternet: algumas considerações

Aula 01out2007

Page 3: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

“DEEP WEB” X “SURFACE WEB” (BERGMAN)A SURFACE WEB é estimada (2001) em 2,5 bilhões de páginas, a DEEP WEB, estima-se 500 vezes maior.

Internet

Aula 01out2007

Page 4: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

FOLHA de SP (31/08/2005)O Yahoo!anunciou que seu buscador é capaz de pesquisar em cerca de 19,2 bilhões de páginas, O índice é maior que o dos concorrentes MSN (search.msn.com.br), com 5 bilhões de páginas, e Google, com cerca de 8 bilhões de sites.

Pesquisadores da Universidade de Illinois e do NCSA, nos EUA, fizeram buscas com 10 mil termos aleatórios e concluíram que o serviço do Yahoo! apresentou apenas 37% dos resultados que o Google mostrou nas mesmas condições. Segundo o estudo (vburton.ncsa.uiuc.edu/indexsize.html), o Google retornou, em média, 202 resultados para cada termo pesquisado, enquanto o Yahoo! retornou apenas 132.

Aula 01out2007

Page 5: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

FOLHA de SP (31/08/2005)

“Especialistas afirmam que a área de pesquisas do Google é restrita a aproximadamente 1% do total de arquivos da rede.No total, de acordo com números da empresa Connotate Tecnologies (www.connotate.com), existem cerca de 600 bilhões de arquivos na rede, mas o Google acessa apenas cerca de 8 bilhões."

Aula 01out2007

Page 6: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

COMO BUSCAR INFORMAÇÕES NA

WEB??

Aula 01out2007

Page 7: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

TIPOS DE MECANISMOS

•Diretório

•Metasearch

•Índice

Aula 01out2007

Page 8: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

DIRETÓRIO• Organizados hierarquicamente.

• A busca e organização das informações era feita comumente por seres humanos e somente a home page de um site é indexada.

• A informação é dividida em categorias. Ex: encontramos UFPE em Educação > Universidade e Ensino Superior > Brasil > Pernambuco

• Vantagem : probabilidade reduzida dos resultados estarem fora do contexto.

Aula 01out2007

Page 10: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

METASEARCH

• Não possuem índices próprios

• Submetem as perguntas formuladas a vários indexadores da Web, coletam os resultados obtidos, fazem uma formatação, eliminando resultados duplicados e geram uma listagem final. • Adotam um mínimo denominador comum na forma como as pesquisas são submetidas.

Aula 01out2007

Page 11: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

METASEARCH

Dogpile (http://www.dogpile.com) Metacrawler (http://www.metacrawler.com) Buscapé (http://www.buscape.com.br)

Aula 01out2007

Page 12: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

ÍNDICESpiders / Robôs varrem a internet buscando páginas, indexando-as e criando seu próprio banco de dados.

Algoritmos de busca que acham e trazem documentos relevantes para a pesquisa do usuário

Aula 01out2007

Page 13: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

ÍNDICEQuando fazemos a pesquisa através de um mecanismo de busca NÃO o fazemos "ao vivo" e sim recuperamos as informações gravadas nos banco de dados.Ex: cache do Google

Normalmente cobrem todo tipo de assunto possível, não fazem distinção entre os sites que indexam, desta forma os resultados são descontextualizados.

Aula 01out2007

Page 14: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

ÍNDICE

Principais diferenças entre eles:

• Capacidade de armazenagem no banco de dados;• Freqüência de atualização;• Capacidade de busca (amplitude);• Velocidade de recuperação de resultados;• Interface (design) na mostra dos resultados; • Recursos avançados (tradução, linguagem natural, operadores booleanos).

Aula 01out2007

Page 15: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

ÍNDICEExemplos AltaVista (http://www.altavista.com) Excite (http://www.excite.com) Alltheweb (http://www.alltheweb.com) Google (http://www.google.com.br) HotBot (http://www.hotbot.com)

Aula 01out2007

Page 16: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

COMO OS MECANISMOS DE BUSCA

CONSEGUEM ENCONTRAR AS INFORMAÇÕES

NA INTERNET??

Aula 01out2007

Page 17: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Ocorrência do(s) termo(s) pesquisado(s) em posições estratégicas na página.

Baseando-se no número de ocorrências do(s) termo(s) e na sua localização, determina-se o grau de relevância da página para este(s) termo(s). Ao se construir um documento HTML, deve-se procurar posicionar as palavras-chave estratégicas nestas posições cruciais, para possibilitar que os mecanismos possam “entender” o significado da página. Quais seriam essas posições cruciais???

Aula 01out2007

Page 18: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

O que é HTML?• Estudos sobre SGML (Standard Generalized Markup Language) remontam aos trabalhos de Charles Goldfarb, Edward Mosher e Raymond Lorie em 1970, mas foi somente em 1986 que o SGML se constituiu como um padrão internacional (ISO 8879) para a descrição das linguagens de marcação e para a análise formal de documentos.

• HyperText Markup Language (HTML) é um padrão para a criação de páginas da World Wide Web. É um formato não-proprietário baseado no SGML e pode ser criado e processado por uma grande variedade de Ferramentas. Ele utiliza marcadores especiais, denominados marcas, como <h1> e </h1>, para estruturar o texto em cabeçalhos, parágrafos, listas, links de hipertextos. Desta forma indicam como os navegadores da Web devem exibir os itens da página, como texto e elementos gráficos.

Aula 01out2007

Page 19: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

• Considera-se o título da página (texto entre os tags <title>...</title>) como um dos pontos mais importantes para a determinação do assunto do documento.• Algumas páginas de ótimo conteúdo sobre um determinado assunto podem obter classificações ruins principalmente por falharem neste ponto.• O título deve conter as palavras-chave estratégicas da página.• É recomendável usar nas primeiras posições do título palavras-chave estratégicas.

Título

Aula 01out2007

Page 20: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Topo da página- Os mecanismos de busca consideram o cabeçalho da página (textos entre os tags <h1>..</h1>, <h2>..</h2>) e as primeiras linhas de texto, uma região importante para a indexação.- Uma página relevante para um determinado assunto conterá palavras relacionadas com este assunto desde o seu começo.

Aula 01out2007

Page 21: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Título

Page 22: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de
Page 23: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de
Page 24: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

TABELAA utilização de tabelas para construir uma página pode “empurrar” o texto inicial para posições mais baixas da página, tornando as palavras-chave de seu conteúdo menos relevantes.Por exemplo, vamos supor uma página de duas colunas típica, onde a primeira coluna possui os links de navegação e a segunda possui o texto contendo as palavras-chave:

AutorTítuloEditoraData

Pessoa, FernandoPoemas de Álvaro de CamposNova Fronteira1999

Esta estrutura não ajudará na indexação desta página numa busca por “Álvaro de Campos”, pois os mecanismos de busca considerarão inicialmente o que estiver a esquerda.

Aula 01out2007

Page 25: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de
Page 26: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

FREQÜÊNCIA• A freqüência de ocorrência de um termo em uma página é outro fator importante na determinação de relevância de uma página para este termo.

• As palavras-chave estratégicas devem estar presentes no conteúdo da página. Isto significa é necessário haver um texto escrito numa página.

• Páginas constituídas somente por figuras não são entendidas pelos mecanismos de busca, porque eles não as interpretam. Alguns indexam textos contidos no tag <ALT> e em comentários, no entanto, para se ter segurança é melhor utilizar diretamente o texto HTML sempre que possível.

Aula 01out2007

Page 27: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

PAGE RANK•É seguindo o mesmo princípio da análise de citações que alguns mecanismos “rankeiam” os resultados da busca.

•O algoritmo mede a importância do site a partir de quem está apontando-o (quantitativamente e qualitativamente).

•Não ter ninguém citando sua página dificulta um bom posicionamento, pois a quantidade de links para você é, sobretudo, o seu índice de importância.

Aula 01out2007

Page 28: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Algumas pessoas tentam enganar os mecanismos repetindo várias vezes as palavras-chave na página e formatando-as com um tamanho de fonte muito pequeno ou com uma cor idêntica à cor do fundo, tornando estas palavras invisíveis em um navegador.

Porém os mecanismos são capazes de identificar esta prática e, além de não indexar este tipo de texto, penalizam a página com pontos negativos no momento do cálculo da relevância.

Outra prática é a repetição indiscriminada de palavras-chave no texto. Mas os mecanismos são capazes de ler uma frase e identificar se esta representa uma frase válida ou se é apenas um conjunto desconexo de palavras.

EXEMPLO

Aula 01out2007

Page 29: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

O HTML permite que sejam especificados metadados em um documento, ou seja, informações sobre o documento através do tag <META>.Estes tags podem ser utilizados para incluir pares nome/valor que descrevem propriedades do documento, como por exemplo o autor, palavras-chave, resumo, etc. Estas informações são invisíveis para o visitante da página.Alguns exemplos: DESCRIPTION, KEYWORDS

Alternativas visando melhorar resultadosMETA TAGS

Aula 01out2007

Page 30: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Como funciona a inserção de uma tese eletrônica no banco de teses da UFPE

Tese

Documento eletrônico Representação

descritiva/temática da tese

Busca pela informação através

da interface disponível no site

Aula 01out2007

Participação humana no processo

Page 31: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

A Base de dados fica disponível na Internet

ServidorUFPE

Aula 01out2007

conhecido também como server, é o computador, que como o próprio nome diz,

responsável por disponibilizar algum serviço de rede para outros computadores,

como por exemplo aplicativos de correio eletrônico,páginas Web, repositório de

banco de dados.

Page 32: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Numa busca feita no google pela tese de Aíla Karla Mota Santana não se encontra por encontra o arquivo PDF que contém a tese integral. Porém, indo ao Biblioteca Digital de Teses e Dissertações da UFPE é possível encontrar o material.

Aula 01out2007

Page 33: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Também é possível encontrar o material na Biblioteca Digital de Teses e Dissertação do IBICT. O que diferencia recuperar a informação usando o Google da busca usando o BDTD?

Aula 01out2007

Num sistema previamente elaborado para recuperação os dados são alimentados com a finalidade de serem recuperados segundo alguns parâmetros estabelecidos pelos usuários.

Page 34: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de
Page 35: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

Aula 01out2007

Page 36: Fábio Mascarenhas e Silva fabiomascarenhas@yahoo.com.br 27setembro2007 Universidade Federal de Pernambuco Centro de Artes e Comunicação Departamento de

O que vem depois...

04 Bases de dados

08 Práticas (lab.)

11 Bibliotecas Digitais

15 Protocolos

18 Práticas (lab.)

22 Arquivos Abertos

25 WEB 2, Blogs

29 Práticas (lab)

OUTUBRO

Aula 01out2007