análise de links

35
Aula 14: Análise de Links Alexandre Duarte [email protected] 1 1 Ordenação e Recuperação de Dados

Upload: alexandre-duarte

Post on 15-Dec-2014

253 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Análise de Links

Aula 14: Análise de Links

Alexandre [email protected]

1 111

Ordenação e Recuperação de Dados

Page 2: Análise de Links

Aula de hoje – hipertexto e links Veremos além do conteúdo dos documentos

Começaremos a analisar os hiperlinks entre eles Tratar de questões como:

Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?

Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?

Grandes áreas de aplicação A Web Email Redes sociais

Page 3: Análise de Links

Links estão em todo lugar Poderosa ferramenta para autenticidade e

autoridade Mail spam – quais contas de e-mail são de spammers? Qualidade de servidores – quais servidores são ruins Log de chamadas telefônicas

O Bom, O Ruim e O Desconhecido

?

?

?

?Good Bad

Page 4: Análise de Links

Lógica iterativa simples O Bom, O Ruim e O Desconhecido

Bons nós não apontam para nós ruin Todas as outras combinações são plausíveis

4

?

?

?

?Bom Ruim

Page 5: Análise de Links

Lógica iterativa simples Bons nós não apontam para nós ruins

Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom

5

?

?

?

?Bom Ruim

Page 6: Análise de Links

Lógica iterativa simples Bons nós não apontam para nós ruins

Se você aponta para um nós ruim, você é ruim Se um nó bom aponta para você, você é bom

6

Bom Ruim

Page 7: Análise de Links

Muitos outros exemplos de análise de links Redes sociais são uma rica fonte para análise de

comportamento em grupo Ex., Afinidade de compradores – Goel+Goldstein

2010 Consumidores cujos amigos gastam muito, tendem a

gastar muito também http://www.cs.cornell.edu/home/kleinber/networks-book/

7

Page 8: Análise de Links

Nosso principal interesse neste curso Análogo a maioria das funcionalidades de um

sistema de recuperação de informação baseado puramente em texto Scoring e classificação Agrupamento baseado em links Links como critério de classificação – documentos que

apontam para outros documentos tendem a tratar do mesmo assunto

Crawling Baseado nos links já visitados, para onde ir em seguida?

8

Page 9: Análise de Links

A Web como um Grafo Dirigido

Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade)

Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)

Página Ahyperlink Página BÂncora

Sec. 21.1

Page 10: Análise de Links

Suposição 1: reputação de sites

10

Page 11: Análise de Links

Suposição 2: anotação do alvo

11

Page 12: Análise de Links

Texto âncora

Para ibm como distinguir entre : A página da IBM (predominantemente gráfica) Página de copyright da IBM (alta frequência do termo

“ibm”) Página spam de um rival (frequencia arbirtráriamente alta

de algum termo)

www.ibm.com

“ibm” “ibm.com” “IBM home page”

Um milhão de textos âncora com a palavra “ibm” são um forte sinal

Sec. 21.1.1

Page 13: Análise de Links

Indexando texto âncora Ao indexar um documento D, incluir (com algum

peso) os textos âncora dos documentos com links apontando para D.

www.ibm.com

Armonk, NY-based computergiant IBM announced today

Joe’s computer hardware linksSunHPIBM

Big Blue today announcedrecord profits for the quarter

Sec. 21.1.1

Page 14: Análise de Links

Indexando texto âncora Algumas vezes pode ter efeitos não esperados:

exército do mal. É possível atribuir um score ao texto âncora

dependente da relevância/competência da página onde o link se encontra Ex., se assumirmos que o conteúdo das páginas de

ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam

Sec. 21.1.1

Page 15: Análise de Links

Texto âncora Outras aplicações

Ponderação/filtragem de links em um grafo Geração de descrições de páginas a partir

de textos âncora

Sec. 21.1.1

Page 16: Análise de Links

A web não cita por mérito Milhões de participantes, com interesses individuais Spamming é encontrado em todo lugar Quando ferramentas de busca começaram a utilizar

links para classificação (meados de 1998), o spam de links aumentou Você pode ingressar em um grupo de websites que fazem

ligações em massa entre si

16

Page 17: Análise de Links

Links de entrada para páginas – padrões não-usuais

17

Page 18: Análise de Links

Pagerank Imagine um browser fazendo uma navegação

aleatória na web: Inicia em uma página qualquer A cada passo, sai da página atual por um de seus links, de

forma equiprovável Cada página terá, a longo prazo, uma taxa de

visitação – usar isso como o score da página.

1/31/31/3

Sec. 21.2

Page 19: Análise de Links

Isso não é suficiente A web está cheia de becos sem saída.

Caminhamentos aleatórios podem levar a um beco sem saída.

Fica sem sentido falar em taxa de visitação a longo prazo.

??

Sec. 21.2

Page 20: Análise de Links

Teletransporte Em um beco sem saída, pular para uma

página aleatória. Em qualquer página que não seja um beco

sem saída, manter uma chance de 10% de saltar para uma página aleatória. Com a probabilidade restante (90%), sair

por um dos links de forma aleatória. 10% - é um parâmetro.

Sec. 21.2

Page 21: Análise de Links

Resultados do teletransporte

Nunca ficar preso em um beco sem saída

Há uma taxa de visitação a longo prazo para cada página visitada

Sec. 21.2

Page 22: Análise de Links

A realidade Pagerank é utilizado pelo Google e por outros

motores de busca, mas isso dificilmente conta toda a história São utilizadas muitas outras heurísticas sofisticadas Algumas tratam de classes específicas de consultas Aprendizagem de máquina é utilizado amplamente

Page 23: Análise de Links

Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista

ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas: Páginas hub são boas coleções de links sobre um

determinado assunto. Páginas competentes ocorrem recorrentemente em

páginas hub sobre o assunto. Mais indicado para consultas mais amplas sobre um

assunto do que para encontrar páginas específicas.

Sec. 21.3

Page 24: Análise de Links

Hubs e Competências Uma boa página hub sobre um

determinado tópico aponta para várias páginas competentes sobre este tópico

Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico

Definição circular – podemos computar de forma iterativa.

Sec. 21.3

Page 25: Análise de Links

A esperança

Companhias de telefonia móvel

HubsCompetências

Sec. 21.3

Page 26: Análise de Links

Esquema em alto nível

Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.

Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa

Sec. 21.3

Page 27: Análise de Links

Conjunto base Dada uma consulta textual (ex. browser), usar

um índice texto para recuperar todas as páginas contendo browser. Chamar o resultado de conjunto de páginas raiz

Adicionar qualquer página ao conjunto que Aponta para uma página no conjunto raiz ou É referenciada por qualquer página no conjunto

raiz. Chamar o resultado do conjunto base

Sec. 21.3

Page 28: Análise de Links

Visualização

Conjuntoraíz

Conjunto base

Sec. 21.3

Page 29: Análise de Links

Destilando hubs e páginas competentes Computar, para cada página x no conjunto base,

um score do hub h(x) e um score de competência a(x).

Inicialização: for all x, h(x)1; a(x) 1; Atualizar iterativamente h(x), a(x); Depois das iterações

Classificar as páginas com os h() mais altos como os top hubs

Maior score a() é a página mais competente.

Sec. 21.3

Page 30: Análise de Links

Atualização iterativa Repetir as seguintes atualizações, para todo x

yx

yaxh

)()(

xy

yhxa

)()(

x

x

Sec. 21.3

Page 31: Análise de Links

Escala Para evitar que os valores de h() e a() se

tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.

O fator de escala realmente não interessa: Nos preocupamos apenas com os valores

relativos dos scores.

Sec. 21.3

Page 32: Análise de Links

Quantas iterações? Os valores relativos dos scores vão convergir

depois de algumas poucas iterações: de fato, escaladas apropriadamente, os scores h()

e a() entram em um estado de estabilização! Na prática, aproxima-se da estabilização após

cerca de 5 iterações.

Sec. 21.3

Page 33: Análise de Links

Escolas Elementares do Japão

The American School in Japan The Link Page ‰ªès—§ˆä� � “c¬ŠwZƒz[ƒƒy[ƒW � � � � � Kids' Space ˆÀés—§ˆÀ鼕� � � � ”¬ŠwZ � � ‹{鋳ˆç� ‘åŠw•�‘®¬ŠwZ � � KEIMEI GAKUEN Home Page ( Japanese ) Shiranuma Home Page fuzoku-es.fukui-u.ac.jp welcome to Miasa E&J school _� “Þ쌧E‰¡•ls—§� � � ’†ì¼¬ŠwZ‚̃y� � � � http://www...p/~m_maru/index.html fukui haruyama-es HomePage Torisu primary school goo Yakumo Elementary,Hokkaido,Japan FUZOKU Home Page Kamishibun Elementary School...

schools LINK Page-13 “ú–{‚ÌŠwZ � a‰„¬ŠwZƒz[ƒƒy[ƒW � � � � � � 100 Schools Home Pages (English) K-12 from Japan 10/...rnet and Education ) http://www...iglobe.ne.jp/~IKESAN ‚l‚f‚j¬ŠwZ‚U� � ”N‚P‘g•¨Œê ÒŠ—� ’¬—§ÒŠ—� “Œ¬ŠwZ � � Koulutus ja oppilaitokset TOYODA HOMEPAGE Education Cay's Homepage(Japanese) –y“쬊wZ‚̃z[ƒƒy[ƒW � � � � � UNIVERSITY ‰J—³¬ŠwZ DRAGON97-TOP � � ‰ª¬ŠwZ‚T� � � ”N‚P‘gƒz[ƒƒy[ƒW � � � ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼

Hubs Competências

Sec. 21.3

Page 34: Análise de Links

Fatos interessantes

Agrupa páginas relevantes independentemente de linguagem ou conteúdo.

Usar análise de links apenas depois que o conjunto base estiver montado classificação iterativa é independente da

consulta. Computação iterativa depois de recuperação

textual – overhead significativo.

Sec. 21.3

Page 35: Análise de Links

Questões Desvio de Tópico

Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes

Reforço mútuo por filiação Páginas ou sites afiliados podem aumentar seus

scores trocando links Esse tipo de link não dá informação útil para a busca

Sec. 21.3