busca, recuperação e mineração na web -...

Post on 28-Jan-2019

214 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Busca, Recuperação eBusca, Recuperação eMineração na WebMineração na Web

Carlos Bazilio

Depto de ComputaçãoInstituto de Ciência e TecnologiaUniversidade Federal Fluminense

2

Estrutura do Grafo WebEstrutura do Grafo Web

https://www.cs.cornell.edu/home/kleinber/networks-book/ (Cap. 13)

3

Arquitetura Típica deArquitetura Típica deuma Engine de Busca [1]uma Engine de Busca [1]

4

Arq uit etu ra b as ea da em

Arq uit etu ra b as ea da emC

lu ste r p ara Bu sc a

Clu ste r p ara B

u sc a

5

Arq uit etu ra T

íp ica de umA

rq uit etu ra Típ ica de um

Cra w

le rC

ra wle r

6

Consultando umConsultando umServidor WebServidor Web

Conexão a um servidor web utilizando oaplicativo telnetNum prompt, digite o comando abaixo:

> curl <url>

7

Uma Taxonomia paraUma Taxonomia paraCrawlersCrawlers

Questões a se considerar noprojeto/implementação de um crawler

Atualização das páginas: páginas maisatualizadas possível x páginas “estáticas”Qualidade: poucas páginas com muitaqualidade x muitas páginas com diferentesníveis de qualidadeQuantidade: muitas páginas x maioratualização e/ou qualidade

8

O que é Web Mining?O que é Web Mining?

Web Mining = Web + Data Mining– Information Retrieval, Machine Learning,

Statistic, Pattern Recognition

9

O que é Web Mining?O que é Web Mining?

● Fontes para Mineração na Web:● Conteúdo: textos, mídias, …● Estrutura: links, âncoras, …● Uso: navegação (“wisdom of crowds”)

10

Web Mining – Fontes Web Mining – Fontes

11

Exemplos de AplicaçõesExemplos de Aplicações

PageRank (Algoritmos de“ranqueamento”)

Mineração na estrutura das páginasUma página tem um bom pagerank seapontam para ela muitas outrasEste valor aumenta se as páginas queapontam possuem um bom valor

12

Exemplos de AplicaçõesExemplos de Aplicações

Google AdWords (Propaganda)Mineração nas queries / conteúdoExibe conteúdo relacionado aos termospesquisados

● Google AdWords (Propaganda)

13

Exemplos de AplicaçõesExemplos de Aplicações

Internet Archive (crawler de amplitudeglobal)

http://archive.org/index.phpProjeto para armazenamento de imagensde versões de páginas webExemplos: “www.nytimes.com, 11/09/2001”,“www.cade.com.br”

14

Exemplos de AplicaçõesExemplos de Aplicações

WolframAlpha (Engine para Consulta deInformações http://www.wolframalpha.com/ Utiliza uma base de conhecimento para

resposta às consultas No site não descreve se há mineração

para busca de informações adicionais Exemplo de busca: “16h President of

Brazil”, “Hebe Camargo birthdate”

15

Exemplos de AplicaçõesExemplos de Aplicações

Netflix (Mineração no Uso) Netflix Prize

(http://en.wikipedia.org/wiki/Netflix_Prize) Algoritmos para Recomendação baseado

em Visualização Entrevista com funcionários da Netflix:

http://www.wired.com/underwire/2013/08/qq_netflix-algorithm/

16

Exemplos de AplicaçõesExemplos de Aplicações

NSA (Mineração ???) U.S. National Security Agency Imagens seguintes extraídas do site

archive.org

17

Exemplos de AplicaçõesExemplos de Aplicações

18

Exemplos de AplicaçõesExemplos de Aplicações

19

Exemplos de AplicaçõesExemplos de Aplicações

Google Knowledge Graph Facebook Open Graph IBM Watson

20

Desafios na Análise deDesafios na Análise deDados na WebDados na Web

Dados distribuídos Dados voláteis Grande volume de dados Dados não estruturados e redundantes Qualidade dos dados Formatos heterogêneos

21

Desafios na Análise deDesafios na Análise deDados na WebDados na Web

Como expressar consultas Como interpretar os resultados

22

ReferênciasReferências

[1] Searching the Web, Arvind Arasu et. al,Journal ACM Transactions on InternetTechnology

[2] Web Mining Research Survey, https://arxiv.org/pdf/cs/0011033.pdf

[3] Web Mining: Examples and Applications, Arne Pottharst

top related