resumocrítico-victorgoncalves

5
Extração de Dados na Deep Web: Um Resumo Crítico Victor Gonçalves CONTEXTUALIZAÇÃO A Deep Web tem recebido considerável atenção nas áreas de pesquisa de extração de informação de banco de dados nos últimos anos devido principalmente ao seu volume de dados e qualidade dos mesmos. Conforme apresentado em [1], estima-se que a Deep Web seja 500 vezes maior do que a Surface Web, a qual cotidianamente exploramos via ferramentas de indexação como Google, Yahoo! e Bing. Na Deep Web, as páginas e conteúdos são gerados a partir de uma consulta efetuada pelo usuário em uma interface de busca (formulários), onde, então, o banco de dados vinculado à aplicação retorna os registros que condizem com os critérios da pesquisa. Assim, o resultado relevante é apresentado ao usuário de diferentes formas, estruturada ou semiestruturada, codificado em páginas HTML. No entanto, para que tais informações apresentadas possam ser manipuladas e tornarem- se úteis, é necessário extraí-las corretamente, a ponto que a extração reflita a semântica da informação igualmente à existente no banco de dados. Aplicações web como integração de dados, metaqueryng e comparação de preços utilizam-se de diferentes fontes de páginas da deep web, onde a extração automática bem como a qualidade e exatidão dos dados são essenciais para as mesmas. Desse modo, um dos principais desafios na busca por explorar conteúdo da deep web é a extração precisa de dados, onde informações irrelevantes como propagandas, menus de navegação entre outros sejam separadas dos registros condizentes com os critérios da pesquisa efetuada na base de dados. Ainda, uma vez extraídos os dados, os mesmos precisam ser organizados, possibilitando futuras manipulações. As técnicas existentes para extração de dados categorizam-se basicamente em abordagem: a) manual, onde linguagens auxiliam programadores na construção de wrappers (rótulos) para identificar e extrair os dados, tendo, naturalmente, baixa eficiência e não sendo escaláveis; b) semiautomáticas, onde o documento é transformado uma árvore DOM e há esforço manual na rotulagem de páginas de exemplo; c) automática, onde, obviamente, não há interação humana na extração da informação. Assim, os trabalhos pesquisados neste resumo referem-se à abordagens automáticas. 1 COMBINANDO A SIMILARIDADE DE TAG E VALOR Na proposta apresentada em [4], definida como Combining Tag and Value Similarity - CTVS, dada uma página da deep web, um método em duas etapas é aplicado para obter-se os registros (Query Result Records - QRRs), onde, primeiramente ocorre a identificação da região dos dados e a segmentação dos mesmos e, por fim, ocorre o alinhamento dos registros em forma de tabela. Segundo os autores, o CTVS, comparado a outros métodos, aprimora a precisão na extração de dados de três formas, a saber: 1. Dado a observação de que os registros em muitas bases de dados web são apresentados de maneira não contígua, mas também em diferentes regiões da página, dois métodos são propostos, onde: QRRs não contíguos são identificados de acordo com a similaridade e parentesco da tag HTML associada; e diferentes regiões de dados que contém as QRRs são combinadas em uma; 2. Considerando que, geralmente, o

Upload: hotcyv

Post on 15-Jan-2016

219 views

Category:

Documents


0 download

DESCRIPTION

resumo critico

TRANSCRIPT

Page 1: ResumoCrítico-VictorGoncalves

Extração de Dados na Deep Web: UmResumo Crítico

Victor Gonçalves

CONTEXTUALIZAÇÃO

A Deep Web tem recebido considerávelatenção nas áreas de pesquisa de extração deinformação de banco de dados nos últimos anosdevido principalmente ao seu volume de dados equalidade dos mesmos. Conforme apresentadoem [1], estima-se que a Deep Web seja 500 vezesmaior do que a Surface Web, a qualcotidianamente exploramos via ferramentas deindexação como Google, Yahoo! e Bing.

Na Deep Web, as páginas e conteúdos sãogerados a partir de uma consulta efetuada pelousuário em uma interface de busca (formulários),onde, então, o banco de dados vinculado àaplicação retorna os registros que condizem comos critérios da pesquisa. Assim, o resultadorelevante é apresentado ao usuário de diferentesformas, estruturada ou semiestruturada,codificado em páginas HTML.

No entanto, para que tais informaçõesapresentadas possam ser manipuladas e tornarem-se úteis, é necessário extraí-las corretamente, aponto que a extração reflita a semântica dainformação igualmente à existente no banco dedados. Aplicações web como integração de dados,metaqueryng e comparação de preços utilizam-sede diferentes fontes de páginas da deep web, ondea extração automática bem como a qualidade eexatidão dos dados são essenciais para asmesmas.

Desse modo, um dos principais desafiosna busca por explorar conteúdo da deep web é aextração precisa de dados, onde informaçõesirrelevantes como propagandas, menus denavegação entre outros sejam separadas dosregistros condizentes com os critérios da pesquisaefetuada na base de dados. Ainda, uma vezextraídos os dados, os mesmos precisam serorganizados, possibilitando futuras manipulações.

As técnicas existentes para extração dedados categorizam-se basicamente em

abordagem: a) manual, onde linguagensauxiliam programadores na construção dewrappers (rótulos) para identificar e extrairos dados, tendo, naturalmente, baixaeficiência e não sendo escaláveis; b)semiautomáticas, onde o documento étransformado uma árvore DOM e há esforçomanual na rotulagem de páginas de exemplo;c) automática, onde, obviamente, não háinteração humana na extração da informação.

Assim, os trabalhos pesquisadosneste resumo referem-se à abordagensautomáticas.

1 COMBINANDO A SIMILARIDADEDE TAG E VALOR

Na proposta apresentada em [4],definida como Combining Tag and ValueSimilarity - CTVS, dada uma página da deepweb, um método em duas etapas é aplicadopara obter-se os registros (Query ResultRecords - QRRs), onde, primeiramenteocorre a identificação da região dos dados ea segmentação dos mesmos e, por fim,ocorre o alinhamento dos registros em formade tabela. Segundo os autores, o CTVS,comparado a outros métodos, aprimora aprecisão na extração de dados de três formas,a saber:

1. Dado a observação de que osregistros em muitas bases de dadosweb são apresentados de maneira nãocontígua, mas também em diferentesregiões da página, dois métodos sãopropostos, onde: QRRs não contíguossão identificados de acordo com asimilaridade e parentesco da tagHTML associada; e diferentes regiõesde dados que contém as QRRs sãocombinadas em uma;

2. Considerando que, geralmente, o

Page 2: ResumoCrítico-VictorGoncalves

dado extraído e o atributo que o definepossuem o mesmo tipo de dado, istoporquê ambos são resultados da mesmaconsulta, os dados são alinhados nasQRRs identificadas, primeiramente deforma pareada e depois globalmente,onde, utilizando-se da similaridade daestrutura da tag e do valor do dado, osmesmos são organizados em tabela quepossui valores de dados junto aos mesmosatributos em uma mesma coluna;

3. A eficácia no processamento de dadosagrupados é aprimorada pelo mesmométodo de similaridade de tag e valor dodado e não apenas considerando oinformação da tag.Em suma, a proposta baseia-se nas etapas

de Extração da QRR e Alinhamento da QRR,conforme detalhamento a seguir.

1.1 Extração da QRR

Inicialmente, uma árvore baseada em tagsHTML é gerada, onde cada nó da árvore possuiuma tag string, contendo a tag do nó e seus nósdescendentes e um tag path que possui as tagspresentes no caminho do nó até a raiz da árvore.Uma vez definida a árvore de tags, diferentesmódulos são aplicados:

1. Identificação da região dos dados:partindo da raiz da árvore, o algoritmodesenvolvido nesta proposta é aplicado acada nó e, recursivamente, aos nós filhos,onde a cada par de nós a similaridade écalculada e, então, nós semelhantes e comos mesmos parentes formal uma região dedados. Assim, nesta etapa, mais de umaregião pode ser identificada;

2. Segmentação dos registros: inicialmente,grupos repetidos são identificados naregião dos dados, onde assume-se que sehá informações auxiliares (anúncios,menus, etc) como nós entre outrasinstâncias, grupos repetidos que asantecedem, são considerados registros,mas também grupos repetidos quepossuem espaço visual entre eles maior doque o espaço interno também. No entanto,se uma página possuir mais de uma regiãoe não há registros semelhantes entre elas,apenas uma região será considerada.

1.2 Alinhamento das QRRS

A fim de estruturar as QRRsextraídas, um método em três etapas éaplicado, o qual utiliza a similaridade de tage valor, conforme segue:

1. Alinhamento pareado: considerandoque cada QRR possui dois tipos deinformação: o texto em string dovalor e caminho dos nós até a raiz, oalgoritmo apresentado para oalinhamento pareado recebe doisQRRs e uma matriz de comparação, oqual atribui um peso entre 0 e 1, acada par de dados de diferentesQRRS comparado;

2. Alinhamento holístico: dado oalinhamento pareado entre diferentesQRRs, o qual assemelha-se aográfico indireto, é efetuado oalinhamento global, onde algumasrestrições são consideradas: a)vértices do mesmo registros nãopodem ser incluídos no mesmocomponente conectado e b) não podehaver intersecção entre componentesconectados;

3. Processamento de estruturaagrupada: se uma QRR possuigrupos de valores para um mesmoatributo, os mesmo são consideradoscomo um único registro. Isto porquêo processamento é efetuado após oalinhamento, caso contrário, osmesmos seriam consideradosregistros diferentes.

1.3 Experimentos

A fim de comparar a eficiência dosmétodos apresentados na proposta com ostrabalhos relacionados apontados(ViNTs,DeLa e ViPER), algumas simulações deextrações em diferentes conjuntos de dadoscontendo páginas da deep web foramrealizadas, onde o CTVS se mostrousuperior, onde os autores destacam osprincipais problemas nas soluçõescomparadas como sendo: a ineficiência comdados agrupados e a identificação apenas damaior região de dados, descartando asdemais.

Page 3: ResumoCrítico-VictorGoncalves

2 ABORDAGEM BASEADA EM VISÃO

A solução apresentada em [3],denominada como Vision-based Data Extractor –ViDE apoia-se na ideia de que para facilitar oconsumo das informações por parte dos usuários,páginas da deep web possuem uma organizaçãodos registros retornados com base nos hábitos deleitura dos seres humanos. Assim, o ViDE utiliza-se principalmente das características visuais daspáginas mas também algumas informações nãovisuais tais como tipo de dados e símbolos,sendo, então uma abordagem independente dequalquer linguagem de programação específicapara páginas web, evitando, assim, a limitação deoutras soluções que necessitam analisar arquivosfontes complexos de páginas web.

2.1 Árvore de Bloco Visual e CaracterísticasVisuais

Entre as várias informações apresentadasem uma página web, as características visuaisutilizadas no ViDE são relacionadas basicamenteao layout da página (localização e tamanho) efonte, onde é um sistema de coordenadas (x,y) éaplicado à pagina e, assim, textos e imagenspodem ter uma coordenada exata em relação aotodo.

Ainda, por meio da interface deprogramação dos navegadores e o algoritmoVIPS, a página da deep web é transformada emuma árvore de bloco visual que representa toda apágina, onde o bloco raiz representa a página,blocos seguintes uma região da página e blocosúnicos, os quais não possuem mais segmentações,são a menor unidade de representação semântica,como textos e imagens.

Baseada na observação de várias páginasweb, o autor define algumas característicasvisuais tais como: a) Posição (PF): região dedados são sempre centralizadas horizontalmente eseu tamanho e geralmente maior em relação àsoutras áreas; b) Layout (LF): registros sãoalinhados à esquerda da região de dados, todos osregistros são adjacentes, não se sobrepõem e oespaço entre os mesmos é o mesmo, c) Aparência(AF): registros de dados são similares no tamanhoe fonte e itens de dados de diferentes registrospossuem a mesma semântica, d) Conteúdo (CF):o 1º item de dado de cada registro é sempre do

tipo obrigatório, os registros de dadosseguem uma ordem fixa de apresentação e,as vezes, há textos em registros que não sãooriundos da base de dados.

Assim, este conjunto decaracterísticas visuais definidas, sãoutilizadas na extração tanto de registros dedados quanto itens de dados, onde registrosde dados correspondem à entidades nomundo real e são compostos por itens dedados com diferentes semânticas quedescrevem os atributos das entidades. Taiscaracterísticas foram confrontadas em umaamostra de 1000 páginas da deep web dediferentes base de dados presentes noGeneral Data Set (GDS), onde observou-seque para a maioria delas era verdadeira.

2.2 Extração de Registros de Dados

Por meio das características do tipoPF, inicialmente localiza-se a região dosdados e, então, extrai-se os registros dedados, onde por meio das características LFe AF busca-se descobrir os limites e posiçãodos registros de dados. Para tal, aplica-se umconjunto de filtros sequencialmente: 1) Filtrode blocos indesejáveis: blocos que nãoatendam LF serão descartados; 2)Agrupamento de blocos: blocosremanescentes são agrupados baseado nasimilaridade de aparência (tamanho e fonte),3) Reagrupamento de blocos: os blocos sãoreagrupados para o mesmo registro de dados.

2.3 Extração de Itens de Dados

A extração de itens de dados foca nonós únicos, onde dado um registro de dado,os nós únicos são coletados da árvore debloco visual da esquerda para a direita pararealizar a segmentação do registro de dado.Ainda, é aplicado o alinhamento dos itens dedados por meio das características AF e CF,onde os itens de dados são comparadosconsiderando as posições absolutas e a fonte.

2.4 Geração de Rótulo Visual

Uma vez extraídos os registros e itensde dados e considerando que páginas deepweb de uma mesma base de dados

Page 4: ResumoCrítico-VictorGoncalves

compartilham o mesmo templete visual, aextração é utilizada como base na geração de umrótulo para essa base de dados, onde novaspáginas web da mesma base pode ser processadasmais rapidamente.

2.5 Experimentos

Diferentemente de outros trabalhos naárea, os quais utilizam-se de conjunto de dadospequenos para os testes, o autor utilizou-se doGDS, o qual é atualmente o maior repositóriodeep web, com mais de 70.000 registros dediferentes base de dados e classificados em 42categorias, cobrindo os principais domínios domundo real. Ainda, o autor propõem uma novamétrica para as comparações definida comorevisão, onde a mesma indica a porcentagem debases de dados que a solução automática falhouna correta extração.

A comparação foi realizada com assoluções MDR e DEPTA onde o ViDE se mostrousuperior principalmente na extração de registro dedados opcionais em relação ao MDR e noalinhamento de data itens com diferentessemânticas em relação do DEPTA.

3 USANDO ONTOLOGIA E A WORDNET

Na abordagem apresentada em [2],denominada Ontological Wrapper OW,igualmente as abordagens vistas em [3] e [4] asquais baseiam-se no Modelo de Objeto doDocumento (DOM) de páginas HTML e recursosvisuais oriundos das engine de renderização dosnavegadores, o OW utiliza-se da propriedadesemântica dos registros de dados, onde domíniosde ontologia pré-definidos são analisados e umesquema para extração de dados é elaborado.

Entre várias técnicas ontológicas, aWordNet foi escolhida, a qual constitui-se de umabase de dados lexical de Inglês para comparaçãosemântica de palavras em pesquisas derecuperação de informação, onde substantivos,adjetivos, verbos e advérbios são representadoscomo um grupo de sinônimos cognitivos comconceito próprio. Assim, a WordNet é utilizadapara verificar o significado das palavras em seusconteúdos por meio da relação semântica entre asmesmas.

3.1 Extração de dados

Igualmente à outras abordagens, oOW transforma a página web em uma DOMtree, a qual deve conter ao menos trêspadrões que se repetem. Ainda, por meio debusca adaptativa, determina-se e nomeia-sepotenciais nós da árvore candidatos aarmazenarem registros de dados.

Posteriormente, baseado em algumasobservações semelhantes às característicasvisuais apresentadas em [3], acrecidas asobservações dos autores: a) registros dedados em páginas deep web são tambémsemanticamente relacionadas, b) registro dedados usualmente são constituídos de umsérie de HTML tags, uma série de filtros sãoaplicados com a intuito de 1) removerinformações relacionadas a anúncios emenus, 2) determinar a similaridade entrenós da árvore DOM, 3) agrupar em regiõesde dados os registros de dados,semelhantemente á presenta na fase deAlinhamento de QRRs exposta em [4], 4)determinar quais as regiões de dadossemanticamente similares.

3.2 Alinhamento dos dados

Visando o alinhamento tanto dedados iterativos quanto disjuntivos oalgoritmo utilizando na solução WISH éaprimorado, onde é incorporado o recurso deontologia da WordNet. Para tal, o OW aplicaa comparação de textos medindo a distânciaentre as localizações de dois textos naestrutura em árvore hierárquica da WordNete normaliza-os em uma funçãoprobabilística.

3.3 Experimentos

Com testes realizados em um total desete conjunto de dados, comparando o OWàs soluções ViNT e DEPTA para páginasweb com seção única de registro de dados eMSE e WISH para páginas multisseção, omesmo se mostrou superior nas extrações dedados irregulares presentes em páginas commultisseção e registros de dados fracamenteestruturados.

REFERÊNCIAS

Page 5: ResumoCrítico-VictorGoncalves

[1] HE, Bin, PATEL, Mitesh, ZHANG, Zhen e CHEN-CHUAN CHANGA, Kevin, “Accessing the Deep Web: ASurvey”, Communications of the ACM, vol. 50, no. 5,2007.

[2] HONG, Jer Lang, “Data Extraction for Deep Web UsingWordNet”, IEEE Transactionos on Systems, Man, andCybernetics – Part C: Applications and Reviews, vol. 41,no. 6, 2011.

[3] LIU, Wei, MENG, Xiaofeng e MENG, Weiyi, “ViDE: AVision-Based Approach for Deep Web Data Extraction”,

IEEE Transactions on Knowledge and DataEngineering, vol. 22, no. 3, 2010.

[4] SU, Weifeng, WANG, Jiying, H. LOCHOVSKY,Frederick e LIU, Yi. “Combining Tag and ValueSimilarity for Data Extraction and Alignment”. IEEETransactions on Knowledge and Data Engineering,vol. 24, no. 7, 2012.