sistemas de busca na internet leandro costa do nascimento 09/04/2007

24
SISTEMAS DE BUSCA NA INTERNET LEANDRO COSTA DO NASCIMENTO 09/04/2007

Upload: gabriella-martins-alencar

Post on 07-Apr-2016

216 views

Category:

Documents


1 download

TRANSCRIPT

SISTEMAS DE BUSCA NA INTERNET

LEANDRO COSTA DO NASCIMENTO09/04/2007

A SITUAÇÃO ATUAL DAS BUSCAS

• FONTE: GOOGLE (2005)

76%

24%

0%

10%

20%

30%

40%

50%

60%

70%

80%

BUSCA POR PALAVRA URL

SUMÁRIO

• COMO ERAM REALIZADAS E ORGANIZADAS AS BUSCAS

• O SURGIMENTO DOS MECANISMOS DE BUSCA• MECANISMOS DE BUSCA – GOOGLE E

PAGERANK• COMPARAÇÃO ENTRE A CONSULTA DO LGE E

A CONSULTA DO GOOGLE

OS DIRETÓRIOS

• NECESSIDADE DE CADASTRO PRÉVIO• BANCO DE DADOS GERADO POR SERES

HUMANOS• APÓS O CADASTRO O SITE ERA ANALISADO

POR UM EQUIPE DO DIRETÓRIO QUE PODIA APROVAR OU REPROVAR O SITE

DIRETÓRIOS – APRESENTAÇÃO DOS RESULTADOS

• OS SITES ERAM ORDENADOS SOMENTE PELA HOME-PAGE

• A LISTA ERA EXIBIDA EM ORDEM ALFABÉTICA• SÍMBOLOS E NÚMEROS TINHAM MAIS

IMPORTÂNCIA QUE AS LETRAS

A GRANDE MUDANÇA

• SURGEM OS CHAMADOS MECANISMOS DE BUSCA

• ALGORITMO BASEADO NOS WEB ROBOTS DECRETA O FIM DA INTERVENÇÃO HUMANA E NECESSIDADE DE CADASTRO PRÉVIO

• BUSCA POR OCORRÊNCIA DA PALAVRA-CHAVE

MAS E SE EU NÃO QUISER QUE MEU SITE APAREÇA NA LISTA?

• NADA IMPEDE QUE SEU SITE SEJA CADASTRADO, MAS O PADRÃO DE EXCLUSÃO É O ARQUIVO ROBOTS.TXT

• O ARQUIVO MOSTRA QUAIS ÁREAS OS ROBÔS NÃO DEVEM CADASTRAR EM SEU BANCO DE DADOS

A FORÇA DOS ROBOTS

• FONTE: GOOGLE (2005)

3,3

3,2

3

1,5

1

0 0,5 1 1,5 2 2,5 3 3,5

GOOGLE

ALLTHEWEB

INKTOMI

TEOMA

ALTAVISTA

NÚMEROS EM BILHÕES

MECANISMOS DE BUSCA

• ALTAVISTA INTRODUZ O CONCEITO DE POPULARIDADE DO LINK, QUE LEVAVA EM CONTA O NÚMERO DE LINKS QUE APONTAVAM PARA UMA PÁGINA

• COM O TEMPO, O MÉTODO SE TORNOU FACILMENTE MANIPULÁVEL

O SURGIMENTO DO GOOGLE

• O GOOGLE SURGE EM 1998, RESULTADO DE UM TRABALHO DE DOUTORADO

• HOJE É O MAIOR E PREFERIDO BUSCADOR NO MUNDO DEVIDO A MANEIRA COMO ORGANIZA OS RESULTADOS

ONDE SÃO REALIZADAS AS BUSCAS?

• FONTE: AOL (2006)

32%

26%

19%

17%1% 5% GOOGLE

YAHOO

AOL

MSN

ALTA VISTA

OUTROS

COMO O GOOGLE GERA AS CONSULTAS DO YAHOO E AOL ...

• FONTE: AOL(2006)

77%

17%1% 5%

GOOGLE

MSN

ALTA VISTA

OUTROS

O SEGREDO: PAGERANK

• OS LINKS PARA UMA PÁGINA DEIXARAM DE TER O MESMO PESO

• QUANTO MAIS IMPORTANTE A PÁGINA QUE LINKA PARA A MINHA, MAIS PONTOS A MINHA GANHA

• O PAGERANK DE UMA DETERMINADA PÁGINA É A SOMA DE TODOS OS PONTOS

O SEGREDO: PAGERANK

• A IMPORTÂNCIA DE UMA PÁGINA É MEDIDA PELO PRÓPRIO PAGERANK

• UMA PÁGINA QUALQUER PODE REPASSAR 85% DE SEU PAGERANK

• EXEMPLO: SE UMA PÁGINA A LINKA PARA UMA B, A B VAI GANHAR PONTOS DE ACORDO COM A FÓRMULA:

PRb = (0,85 * PRa) / LINKSa

EXEMPLOS DE PAGERANK

04SHOPPING D. PEDRO

05COCA-COLA

05LGE

07UNICAMP

08GOOGLE (BRASIL)

10GOOGLE (EUA)

PRSITE

MAS O GOOGLE UTILIZA SÓ O PAGERANK?

• SEGUNDO A EMPRESA O ALGORITMO TEM CERCA TEM CEM REGRAS

• A MAIORIA DAS REGRAS SÃO MANTIDAS EM SEGREDO, ASSIM COMO O SISTEMA DE HARDWARE DA EMPRESA

AS PRINCIPAIS REGRAS

30%

10%

15%

15%

0% 5% 10% 15% 20% 25% 30%

PAGE RANK

PL NO TEXTO

PL DESTACADA

PALAVRA LINK

IMPORTÂNCIA DE CADA REGRA

PROBLEMAS DOS MECANISMOS DE BUSCA

• O FIM DA INTERVENÇÃO HUMANA GERA CONSULTAS QUE RETORNAM DADOS INÚTEIS OU SEM LIGAÇÃO COM O ASSUNTO DA BUSCA

• LINKS QUE DEIXARAM DE EXISTIR OU QUE NUNCA EXISTIRAM

• MOURA, G. A. C. de (2004)

51%

14%26%

9%0%

10%

20%

30%

40%

50%

60%

ANIMAL MULHERGATO

GATOSARADO

OUTROS

BUSCA POR GATO NO GOOGLE

MECANISMOS DE BUSCA

• MAS NÃO É POSSÍVEL ENGANAR OS ROBÔS DOS MECANISMOS DE BUSCA?

• TODOS ELES TÊM DEFICIÊNCIA, E PRINCIPALMENTE O GOOGLE EM DIVERSAS OCASIÕES É VÍTIMA DO SEU PRÓPRIO SUCESSO

COMO ENGANAR OS MECANISMOS DE BUSCA

• LINKS “INVISÍVEIS”• REDIRECIONAMENTO DE PÁGINAS• REPETIÇÃO INVÍSIVEL DE UMA PALAVRA-

CHAVE• LINKS INTERNOS• MAS E SE EU FOR DESCOBERTO?

PUNIÇÕES MAIS COMUNS

• USO ABUSIVO DE LINKS INTERNOS OU REPETIÇÃO ABUSIVA DE UMA PALAVRA : REBAIXAMENTO POR TEMPO DETERMINADO

• REPETIÇÃO INVÍSIVEL DE UMA PALAVRA: REBAIXAMENTO PERMANENTE

• USO DE LINKS INVISÍVEIS OU TROCA DE LINKS COM SITES FALTOSOS: ABOLIÇÃO POR TEMPO INDETERMINADO

. FONTE: GOMES, DANIEL(2003)

A CONSULTA DO LGE

• OBJETIVO: DESENVOLVER UM SISTEMA DE CONSULTAS POR PALAVRA OU EXPRESSÃO CHAVE QUE FOSSE SIMILAR PARA TODOS OS PROJETOS

• PROBLEMAS ENCONTRADOS: TEMPO DE RESPOSTA MUITO ALTO DEVIDO AO GRANDE NÚMERO DE REGISTROS NO BANCO DE DADOS

A CONSULTA DO LGE

• SOLUÇÃO ENCONTRADA: CONSTRUÇÃO DE UM NOVO BANCO DE DADOS DE PALAVRAS-CHAVE COM RELACIONAMENTOS PARA O BANCO ORIGINAL