gerência de dados na web: especial big data onduxhadoop: extração de dados em bigdata...

30
Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Upload: internet

Post on 18-Apr-2015

107 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Gerência de Dados na Web: Especial Big Data

ONDUXHadoop: Extração de dados em BigData

Universidade Federal do AmazonasInstituto de Computação

André Porto

Page 2: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Roteiro IntroduçãoMotivaçãoONDUXONDUXHadoopResultados ObtidosConclusãoHands on

Page 3: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

IntroduçãoAbundância de registros não estruturados na

Web em forma textual.Endereços postais.Citações Científicas.Anúncios de Imóveis.Artigos Científicos.Ofertas de produtos.Etc…

Page 4: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

DesafiosEnorme quantidade de dados

Dados semi-estruturados

Domínios diversificados

Grande esforço humano

Page 5: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Pra que extrair isso tudo??

Page 6: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto
Page 7: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto
Page 8: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto
Page 9: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto
Page 10: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Motivação Informações Textuais

Ricas de informações e não estruturadasNecessidade de recuperar informaçõesEstruturar em bancos de dadosMineração de Dados.Comparação de Registros.FiltrosConsulta complexas

Page 11: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Como extrair?ONDUX(Cortez@SIGMOD`10)

Método de extração de informação Segmentação do texto. Método probabilístico. Utiliza Base de Conhecimento.

Page 12: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ONDUXEntradas

Registros que se deseja classificar.Base de Conhecimento.

SaídasRegistros rotulados.Possibilidade de armazenamento em

arquivos estruturados(CSV e XML).

Page 13: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Exemplo de registro Smartphone Moto G Colors Edition Dual Chip Desbloqueado

3G Câmera 5MP 16GB Android 4.3 R$ 799,00

Smartphone Dual Chip Samsung Galaxy Trend Lite Duos Desbloqueado Branco Android 4.1 3G/Wi-Fi Câmera 3MP R$ 579,00

Smartphone Nokia Lumia 520 Desbloqueado TIM Preto Windows Phone 8 Câmera 5MP 3G Wi-Fi Memória Interna 8G GPS R$ 499,00

Smartphone Samsung Galaxy S4 Zoom Preto Android 4.2 3G Desbloqueado - Câmera 16MP Câmera Wi-Fi GPS Memória 8GB R$ 1.499,00

Page 14: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Exemplo de Base de ConhecimentoXML

Par (Atributo, Exemplo de Valor)

<outros> Conectividade USB Bluetooth 4.0 Wi-Fi 802.11 bgn </outros>

<processador> Processador Single Core </processador>

<processador> Quad Core </processador>

<sistema_operacional> Android 4.3 </sistema_operacional>

<modelo> Galaxy SIII I9300 </modelo>

<modelo> Optimus Hub E510 </modelo>

<cor> Preto </cor>

<marca> Nokia </marca>

<marca> LG </marca>

Page 15: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Funcionamento

Page 16: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Blocking

Smartphone

Smartphone Samsung Galaxy Note III Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi

4G Por: R$ 2.899,00

Page 17: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Matching

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

??? Câmera Processador

Outros Preço

Quad Core

???

Page 18: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Modelo

PSM

Categoria

Marca

Cor

???Câmera

Processador

Outros

Preço

Início

Fim

90%

65%

82%

57%35%

90% 12%

21%55%

9%

45%17%

67% 44%

8%

98%

78%55%

94%

35%

13%

Page 19: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Reinforcement

Smartphone

Smartphone Samsung Galaxy Note III Quad Core Branco Android 4.3 Câmera de 13 MP Wi-Fi 4G Por: R$ 2.899,00

Samsung Galaxy Note III

Branco

Android 4.3

Câmera de 13MP

Wi-Fi4G Por: R$ 2.899,00

Categoria

Marca Modelo Cor

SO Câmera Processador

Outros Preço

Quad Core

Outros

Page 20: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ONDUX HadoopPossibilidade de utilizar BigData

Melhoria na extração de dados

Foco na etapa Matching e ReinforcementGeração de blocosDetectar AmbiguidadePSM sem ruídos

Page 21: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ONDUX HadoopHadoop Single Node

Versão 1.2.1

Framework MapReduceEntrada: Blocos rotuladosSaída: Montagem de registros filtrados

Page 22: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ONDUX HadoopMatching gera entrada do Hadoop

smartphone-categoria-0-1:0 android 41-sistema_operacional-4-0.81:0 3g-atributos-1-0.51:1 proc quad core-processador-10-0.75:1 …

valorBloco – atributo – posição – score : id_registro

Page 23: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

MapReduceMAP

IDRegistro : quádrupla

Reduce ID Registro : Registro Filtrado Gera registro sem unmatch e maior que

limiar(0.15) Remove ruídos no PSM

Page 24: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ONDUXHadoop

ONDUX

Dados Extraídos

Page 25: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

MapReduceReduce

Page 26: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Avaliação 150 registros

51 registros modificados como novo PSMTotal de 164 rotulações82 blocos por implementação

Avaliação ManualGanho de 65%!

Implementação Corretos Errados

Normal 7 75

Hadoop 20 62

Page 27: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Trabalhos Futuros Gerar mais de um bloco por termo para detectar

ambiguidades

Construir vários PSM`s e utilizar um classificador capaz de escolher o melhor grafo para um registro específico.

Realizar mais experimentos de acordo com a variação de limar e comparação de desempenho

Desenvolver Matching dentro do Hadoop

Page 28: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

ConclusãoGrandes possibilidades de melhoria do ONDUX

PSM sem ruído consegue melhorar a extração de dados

Implementação em Hadoop possibilita utilização em grande escala de dados

Page 29: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Obrigado.

Page 30: Gerência de Dados na Web: Especial Big Data ONDUXHadoop: Extração de dados em BigData Universidade Federal do Amazonas Instituto de Computação André Porto

Hands On