análise de links

Post on 15-Dec-2014

253 Views

Category:

Education

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Aula 14: Análise de Links

Alexandre Duartealexandre@di.ufpb.br

1 111

Ordenação e Recuperação de Dados

Aula de hoje – hipertexto e links Veremos além do conteúdo dos documentos

Começaremos a analisar os hiperlinks entre eles Tratar de questões como:

Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?

Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?

Grandes áreas de aplicação A Web Email Redes sociais

Links estão em todo lugar Poderosa ferramenta para autenticidade e

autoridade Mail spam – quais contas de e-mail são de spammers? Qualidade de servidores – quais servidores são ruins Log de chamadas telefônicas

O Bom, O Ruim e O Desconhecido

?

?

?

?Good Bad

Lógica iterativa simples O Bom, O Ruim e O Desconhecido

Bons nós não apontam para nós ruin Todas as outras combinações são plausíveis

4

?

?

?

?Bom Ruim

Lógica iterativa simples Bons nós não apontam para nós ruins

Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom

5

?

?

?

?Bom Ruim

Lógica iterativa simples Bons nós não apontam para nós ruins

Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom

6

Bom Ruim

Muitos outros exemplos de análise de links Redes sociais são uma rica fonte para análise de

comportamento em grupo Ex., Afinidade de compradores – Goel+Goldstein

2010 Consumidores cujos amigos gastam muito, tendem a

gastar muito também http://www.cs.cornell.edu/home/kleinber/networks-book/

7

Nosso principal interesse neste curso Análogo a maioria das funcionalidades de um

sistema de recuperação de informação baseado puramente em texto Scoring e classificação Agrupamento baseado em links Links como critério de classificação – documentos que

apontam para outros documentos tendem a tratar do mesmo assunto

Crawling Baseado nos links já visitados, para onde ir em seguida?

8

A Web como um Grafo Dirigido

Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade)

Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)

Página Ahyperlink Página BÂncora

Sec. 21.1

Suposição 1: reputação de sites

10

Suposição 2: anotação do alvo

11

Texto âncora

Para ibm como distinguir entre : A página da IBM (predominantemente gráfica) Página de copyright da IBM (alta frequência do termo

“ibm”) Página spam de um rival (frequencia arbirtráriamente alta

de algum termo)

www.ibm.com

“ibm” “ibm.com” “IBM home page”

Um milhão de textos âncora com a palavra “ibm” são um forte sinal

Sec. 21.1.1

Indexando texto âncora Ao indexar um documento D, incluir (com algum

peso) os textos âncora dos documentos com links apontando para D.

www.ibm.com

Armonk, NY-based computergiant IBM announced today

Joe’s computer hardware linksSunHPIBM

Big Blue today announcedrecord profits for the quarter

Sec. 21.1.1

Indexando texto âncora Algumas vezes pode ter efeitos não esperados:

exército do mal. É possível atribuir um score ao texto âncora

dependente da relevância/competência da página onde o link se encontra Ex., se assumirmos que o conteúdo das páginas de

ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam

Sec. 21.1.1

Texto âncora Outras aplicações

Ponderação/filtragem de links em um grafo Geração de descrições de páginas a partir

de textos âncora

Sec. 21.1.1

A web não cita por mérito Milhões de participantes, com interesses individuais Spamming é encontrado em todo lugar Quando ferramentas de busca começaram a utilizar

links para classificação (meados de 1998), o spam de links aumentou Você pode ingressar em um grupo de websites que fazem

ligações em massa entre si

16

Links de entrada para páginas – padrões não-usuais

17

Pagerank Imagine um browser fazendo uma navegação

aleatória na web: Inicia em uma página qualquer A cada passo, sai da página atual por um de seus links, de

forma equiprovável Cada página terá, a longo prazo, uma taxa de

visitação – usar isso como o score da página.

1/31/31/3

Sec. 21.2

Isso não é suficiente A web está cheia de becos sem saída.

Caminhamentos aleatórios podem levar a um beco sem saída.

Fica sem sentido falar em taxa de visitação a longo prazo.

??

Sec. 21.2

Teletransporte Em um beco sem saída, pular para uma

página aleatória. Em qualquer página que não seja um beco

sem saída, manter uma chance de 10% de saltar para uma página aleatória. Com a probabilidade restante (90%), sair

por um dos links de forma aleatória. 10% - é um parâmetro.

Sec. 21.2

Resultados do teletransporte

Nunca ficar preso em um beco sem saída

Há uma taxa de visitação a longo prazo para cada página visitada

Sec. 21.2

A realidade Pagerank é utilizado pelo Google e por outros

motores de busca, mas isso dificilmente conta toda a história São utilizadas muitas outras heurísticas sofisticadas Algumas tratam de classes específicas de consultas Aprendizagem de máquina é utilizado amplamente

Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista

ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas: Páginas hub são boas coleções de links sobre um

determinado assunto. Páginas competentes ocorrem recorrentemente em

páginas hub sobre o assunto. Mais indicado para consultas mais amplas sobre um

assunto do que para encontrar páginas específicas.

Sec. 21.3

Hubs e Competências Uma boa página hub sobre um

determinado tópico aponta para várias páginas competentes sobre este tópico

Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico

Definição circular – podemos computar de forma iterativa.

Sec. 21.3

A esperança

Companhias de telefonia móvel

HubsCompetências

Sec. 21.3

Esquema em alto nível

Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.

Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa

Sec. 21.3

Conjunto base Dada uma consulta textual (ex. browser), usar

um índice texto para recuperar todas as páginas contendo browser. Chamar o resultado de conjunto de páginas raiz

Adicionar qualquer página ao conjunto que Aponta para uma página no conjunto raiz ou É referenciada por qualquer página no conjunto

raiz. Chamar o resultado do conjunto base

Sec. 21.3

Visualização

Conjuntoraíz

Conjunto base

Sec. 21.3

Destilando hubs e páginas competentes Computar, para cada página x no conjunto base,

um score do hub h(x) e um score de competência a(x).

Inicialização: for all x, h(x)1; a(x) 1; Atualizar iterativamente h(x), a(x); Depois das iterações

Classificar as páginas com os h() mais altos como os top hubs

Maior score a() é a página mais competente.

Sec. 21.3

Atualização iterativa Repetir as seguintes atualizações, para todo x

yx

yaxh

)()(

xy

yhxa

)()(

x

x

Sec. 21.3

Escala Para evitar que os valores de h() e a() se

tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.

O fator de escala realmente não interessa: Nos preocupamos apenas com os valores

relativos dos scores.

Sec. 21.3

Quantas iterações? Os valores relativos dos scores vão convergir

depois de algumas poucas iterações: de fato, escaladas apropriadamente, os scores h()

e a() entram em um estado de estabilização! Na prática, aproxima-se da estabilização após

cerca de 5 iterações.

Sec. 21.3

Escolas Elementares do Japão

The American School in Japan The Link Page ‰ªès—§ˆä� � “c¬ŠwZƒz[ƒƒy[ƒW � � � � � Kids' Space ˆÀés—§ˆÀ鼕� � � � ”¬ŠwZ � � ‹{鋳ˆç� ‘åŠw•�‘®¬ŠwZ � � KEIMEI GAKUEN Home Page ( Japanese ) Shiranuma Home Page fuzoku-es.fukui-u.ac.jp welcome to Miasa E&J school _� “Þ쌧E‰¡•ls—§� � � ’†ì¼¬ŠwZ‚̃y� � � � http://www...p/~m_maru/index.html fukui haruyama-es HomePage Torisu primary school goo Yakumo Elementary,Hokkaido,Japan FUZOKU Home Page Kamishibun Elementary School...

schools LINK Page-13 “ú–{‚ÌŠwZ � a‰„¬ŠwZƒz[ƒƒy[ƒW � � � � � � 100 Schools Home Pages (English) K-12 from Japan 10/...rnet and Education ) http://www...iglobe.ne.jp/~IKESAN ‚l‚f‚j¬ŠwZ‚U� � ”N‚P‘g•¨Œê ÒŠ—� ’¬—§ÒŠ—� “Œ¬ŠwZ � � Koulutus ja oppilaitokset TOYODA HOMEPAGE Education Cay's Homepage(Japanese) –y“쬊wZ‚̃z[ƒƒy[ƒW � � � � � UNIVERSITY ‰J—³¬ŠwZ DRAGON97-TOP � � ‰ª¬ŠwZ‚T� � � ”N‚P‘gƒz[ƒƒy[ƒW � � � ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼

Hubs Competências

Sec. 21.3

Fatos interessantes

Agrupa páginas relevantes independentemente de linguagem ou conteúdo.

Usar análise de links apenas depois que o conjunto base estiver montado classificação iterativa é independente da

consulta. Computação iterativa depois de recuperação

textual – overhead significativo.

Sec. 21.3

Questões Desvio de Tópico

Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes

Reforço mútuo por filiação Páginas ou sites afiliados podem aumentar seus

scores trocando links Esse tipo de link não dá informação útil para a busca

Sec. 21.3

top related