gerência de dados na web: especial big data

30
Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Upload: jelani-moore

Post on 01-Jan-2016

12 views

Category:

Documents


0 download

DESCRIPTION

ONDUXHadoop: Extração de dados em BigData. Universidade Federal do Amazonas Instituto de Computação. Gerência de Dados na Web: Especial Big Data. André Porto. Roteiro. Introdução Motivação ONDUX ONDUXHadoop Resultados Obtidos Conclusão Hands on. Introdução. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Gerência de Dados na Web: Especial Big Data

Gerência de Dados na Web: Especial Big Data

ONDUXHadoop: Extração de dados em BigData

Universidade Federal do AmazonasInstituto de Computação

André Porto

Page 2: Gerência de Dados na Web: Especial Big Data

Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on

Page 3: Gerência de Dados na Web: Especial Big Data

IntroduçãoAbundância de registros não estruturados na

Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…

Page 4: Gerência de Dados na Web: Especial Big Data

DesafiosEnorme quantidade de dados

Dados semi-estruturados

Domínios diversificados

Grande esforço humano

Page 5: Gerência de Dados na Web: Especial Big Data

Pra que extrair isso tudo??

Page 6: Gerência de Dados na Web: Especial Big Data
Page 7: Gerência de Dados na Web: Especial Big Data
Page 8: Gerência de Dados na Web: Especial Big Data
Page 9: Gerência de Dados na Web: Especial Big Data
Page 10: Gerência de Dados na Web: Especial Big Data

Motivação Informações Textuais

Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas

Page 11: Gerência de Dados na Web: Especial Big Data

Como extrair?ONDUX(Cortez@SIGMOD`10)

Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.

Page 12: Gerência de Dados na Web: Especial Big Data

ONDUXEntradas

Registros que se deseja classificar.Base de Conhecimento.

SaídasRegistros rotulados.Possibilidade de armazenamento em

arquivos estruturados(CSV e XML).

Page 13: Gerência de Dados na Web: Especial Big Data

Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado

3G Câmera 5MP 16GB Android 4.3 R$ 799,00

Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00

Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00

Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00

Page 14: Gerência de Dados na Web: Especial Big Data

Exemplo de Base de ConhecimentoXML

Par (Atributo, Exemplo de Valor)

<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>

<processador> Processador Single Core </processador>

<processador> Quad Core </processador>

<sistema_operacional> Android 4.3 </sistema_operacional>

<modelo> Galaxy SIII I9300 </modelo>

<modelo> Optimus Hub E510 </modelo>

<cor> Preto </cor>

<marca> Nokia </marca>

<marca> LG </marca>

Page 15: Gerência de Dados na Web: Especial Big Data

Funcionamento

Page 16: Gerência de Dados na Web: Especial Big Data

Blocking

Smartphone

Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi

4G Por: R$ 2.899,00

Page 17: Gerência de Dados na Web: Especial Big Data

Matching

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

??? Câmera Processador

Outros Preço

Quad Core

???

Page 18: Gerência de Dados na Web: Especial Big Data

Modelo

PSM

Categoria

Marca

Cor

???Câmera

Processador

Outros

Preço

Início

Fim

90%

65%

82%

57%35%

90% 12%

21%55%

9%

45%17%

67% 44%

8%

98%

78%55%

94%

35%

13%

Page 19: Gerência de Dados na Web: Especial Big Data

Reinforcement

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

SO Câmera Processador

Outros Preço

Quad Core

Outros

Page 20: Gerência de Dados na Web: Especial Big Data

ONDUX HadoopPossibilidade de utilizar BigData

Melhoria na extração de dados

Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos

Page 21: Gerência de Dados na Web: Especial Big Data

ONDUX HadoopHadoop Single Node

Versão 1.2.1

Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados

Page 22: Gerência de Dados na Web: Especial Big Data

ONDUX HadoopMatching gera entrada do Hadoop

smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …

valorBloco – atributo – posição – score : id_registro

Page 23: Gerência de Dados na Web: Especial Big Data

MapReduceMAP

IDRegistro : quádrupla

Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que

limiar(0.15) Remove ruídos no PSM

Page 24: Gerência de Dados na Web: Especial Big Data

ONDUXHadoop

ONDUX

Dados Extraídos

Page 25: Gerência de Dados na Web: Especial Big Data

MapReduceReduce

Page 26: Gerência de Dados na Web: Especial Big Data

Avaliação 150 registros

51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação

Avaliação ManualGanho de 65%!

Implementação Corretos Errados

Normal 7 75

Hadoop 20 62

Page 27: Gerência de Dados na Web: Especial Big Data

Trabalhos Futuros Gerar mais de um bloco por termo para detectar

ambiguidades

Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.

Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho

Desenvolver Matching dentro do Hadoop

Page 28: Gerência de Dados na Web: Especial Big Data

ConclusãoGrandes possibilidades de melhoria do ONDUX

PSM sem ruído consegue melhorar a extração de dados

Implementação em Hadoop possibilita utilização em grande escala de dados

Page 29: Gerência de Dados na Web: Especial Big Data

Obrigado.

Page 30: Gerência de Dados na Web: Especial Big Data

Hands On