uma abordagem bottom-up para a integração semântica de esquemas xml tese de doutorado por ronaldo...

95
Uma Abordagem Uma Abordagem Bottom-Up Bottom-Up para a Integração para a Integração Semântica de Esquemas Semântica de Esquemas XML XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador UFRGS/II - PPGC

Upload: maria-julia-barreiro-de-sequeira

Post on 07-Apr-2016

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica

de Esquemas XMLde Esquemas XML

Tese de Doutoradopor

Ronaldo dos Santos Mello

Prof. Carlos Alberto HeuserOrientador

UFRGS/II - PPGC

Page 2: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro• Introdução• Abordagem de Integração Proposta• Modelo Canônico e Mapeamentos• Etapa de Conversão da DTD• Etapa de Integração Semântica• Considerações Finais

Page 3: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 4: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Motivação• Contexto do problema

– consultas a fontes de dados heterogêneas e semi-estruturadas na Web

– foco em dados XML• Áreas de pesquisa

– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas

Page 5: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Motivação• Contexto do problema

– consultas a fontes de dados heterogêneas e semi-estruturadas na Web

– foco em dados XML• Áreas de pesquisa

– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas

Page 6: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Objetivo da Tese• Uma abordagem de integração semântica

de esquemas XML – semi-automático

• mínima intervenção do usuário– processo bottom-up

• esquema global que representa de forma garantida todas as informações dos esquemas das fontes

– modelo canônico conceitual• alto nível de abstração

Page 7: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico

TSIMMIS manual bottom-up grafoGarlic manual bottom-up ODMGMIX manual bottom-up DTDDIXSE manual bottom-up conceitualJensen manual bottom-up UMLYAT manual - árvoreMcBrien manual - grafoVdovjak manual top-down conceitualXyleme semi-automático top-down DTDLSD semi-automático top-down DTDLim semi-automático bottom-up grafoCUPID semi-automático bottom-up conceitualMOMIS semi-automático bottom-up conceitual

Page 8: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico

TSIMMIS manual bottom-up grafoGarlic manual bottom-up ODMGMIX manual bottom-up DTDDIXSE manual bottom-up conceitualJensen manual bottom-up UMLYAT manual - árvoreMcBrien manual - grafoVdovjak manual top-down conceitualXyleme semi-automático top-down DTDLSD semi-automático top-down DTDLim semi-automático bottom-up grafoCUPID semi-automático bottom-up conceitualMOMIS semi-automático bottom-up conceitual

Page 9: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Características

• não tratam a integração de representações alternativas de elementos• não tratam de forma completa a integração de elementos textuais com estruturados

Limitações na integração de esquemas XML

MOMIS

CUPID

Trabalho

Page 10: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

CaracterísticasTrabalho Limitações da Modelagem Conceitual

CUPID • não modela representações alternativas de elementos• não filtra elementos irrelevantes para o domínio

MOMIS • esquema conceitual definido manualmente

Vdokjak • esquema conceitual definido manualmente

DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio

Page 11: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Proposta da Tese• Processo de integração semântica de

esquemas XML– tratamento dos casos de unificação de

elementos heterogêneos– modelagem canônica conceitual de um

esquema XML• análise do esquema XML• inferências semânticas (heurísticas)

• análise de documentos XML

Page 12: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 13: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Arquitetura de Mediação

Sites Web Documentos

XML

Sites Web

Page 14: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Camada de Wrappers

Wrapper 1 Wrapper nDTD 1

DTD n

Sites Web

...

Documentos XML

Sites Web

• disponibiliza um esquema local para uma ou mais fontes• executa consultas nestas fontes

Page 15: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mediador

Wrapper 1 Wrapper nDTD 1

DTD n

Consulta local textual

Usuário Especialista

Mediador

DTDs Documentos XML Locais

Sites Web

...

Documentos XML

Sites Web

EsquemaGlobal

• integra esquemas locais• gerencia consultas globais a um conjunto de fontes

Documento XML globalConsulta global textual

Page 16: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Interface de Consulta

Wrapper 1 Wrapper nDTD 1

DTD n

Consultas locais textuais

Documento XML global

EsquemaGlobal

Usuário Especialista

Mediador

Interface de Consulta

DTDs

Consulta global Resultados

Documentos XML Locais

Sites Web

Consulta global textual

...

Documentos XML

Sites Web

• define consultas sobre o esquema global• apresenta os resultados

Page 17: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração Semântica

Camada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 18: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração Semântica

Camada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 19: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração SemânticaCamada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 20: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 21: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos

3.1 Modelo Conceitual Canônico (MCC)3.2 Mapeamento MCC-DTD

4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 22: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Modelo Conceitual Canônico (MCC)

• Variante do ORM (Object with Roles Model)

Halphin, T. Object-Role Modeling (ORM/NIAM), Handbook on Architectures of Information Systems. Springer-Verlag, 1998.

– notação gráfica do modelo ER

Page 23: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

Page 24: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

conceito NL

(1,N)

Page 25: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

stringstring

string

string

string

integer

string integer

conceito L

(1,N)

Page 26: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

relacionamento de associação

(1,N)

Page 27: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

relacionamento de herança

(1,N)

Page 28: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Exemplo de Esquema MCCdisjunção

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book(1,N)

homeAddress(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

(1,N)

Page 29: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos

3.1 Modelo Conceitual Canônico (MCC)3.2 Mapeamento MCC-DTD

4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 30: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento MCC - DTD• Informação de mapeamento

– correspondência entre o esquema global e os esquemas locais

– finalidade: tradução de consultas globais

• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões

Page 31: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento MCC - DTD• Informação de mapeamento

– correspondência entre o esquema global e os esquemas locais

– finalidade: tradução de consultas globais

• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões

Page 32: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento MCC - DTD• Estratégia de mapeamento

– expressões de caminho XPath associadas a conceitos e relacionamentos do esquema global

– por quê XPath?• XPath é um padrão para consulta a dados XML• visão XPath: expressão direta de busca para um

elemento ou atributo em uma fonte XML

Page 33: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Conceitos• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 34: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Conceitos• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 35: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Conceitos• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/AuthorList

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 36: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Conceitos• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/AuthorList/Author

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 37: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 38: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor:

Page 39: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor: AuthorList

Page 40: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor: AuthorList/Author

Page 41: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book:

Page 42: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book: ..

Page 43: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book: ../..

Page 44: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 45: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Etapa de Conversão da DTD• Contribuição principal da abordagem

– diferencial em relação a outros trabalhos• define um esquema semântico para uma DTD • resulta de uma análise detalhada do esquema +

dados de documentos XML + inferências semânticas

– modelagem canônica +adequada ao domínio

esquema global +preciso

Page 46: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

Page 47: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

modifica detalhes de estruturação da DTD:• remoção de informação irrelevante para o domínio• tratamento de elementos com aninhamento• renomeação de informação

Page 48: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Remoção de Elementos

<!ELEMENT Book(AuthorList, Publisher)>

...

<!ELEMENT AuthorList(Author)+>

Page 49: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Remoção de Elementos

<!ELEMENT Book(AuthorList, Publisher)>

...

<!ELEMENT AuthorList(Author)+>

<!ELEMENT Book((Author)+, Publisher)>

Page 50: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Tratamento de Aninhamentos

<!ELEMENT Address((Street, Number)?, City)>

Page 51: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Tratamento de Aninhamentos

<!ELEMENT Address((Street, Number)?, City)>

<!ELEMENT Address(AddressGroup1?, City)>

<!ELEMENT AddressGroup1(Street, Number)>

Page 52: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

gera os conceitos e relacionamentos de um esquema MCC com base:• nas definições de elementos e atributos da DTD• nos documentos XML

Page 53: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Regras de Conversão<!ELEMENT Publication (Year,...,Author+,...,Book?)>

Page 54: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Conversão de Elemento Composto<!ELEMENT Publication (Year,...,Author+,...,Book?)>

Publication

Page 55: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Conversão de Elemento Simples<!ELEMENT Publication (Year,...,Author+,...,Book?)><!ELEMENT Year (#PCDATA)>

Yearinteger

Publicationanálise de docs XML

default: string

Page 56: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Análise de Documentos XML• Análise de tipo de dado

...<Year>2002</Year> ...<Year>1999</Year>...<Year>1995</Year> ...

Tipo de dado de Year: integer

Page 57: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)><!ELEMENT Year (#PCDATA)>

Yearinteger

Publication

(1,1)

(1,N)default: (1,N)

regras decardinalidade

Page 58: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Análise de Documentos XML• Análise de cardinalidade inversa

...<Publication Title = “XML”> ... <Year>2002</Year> ... </Publication>...<Publication Title = “XPath”> ... <Year>2002</Year> ...</Publication>...

CardinalidadeYearPublication: (1,N)

Page 59: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)><!ELEMENT Year (#PCDATA)><!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Page 60: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Heurística de Herança<!ELEMENT Publication (Year,...,Author+,...,Book?)><!ELEMENT Year (#PCDATA)><!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Book

consulta à Thesaurus (Wordnet)

<Publication BT Book>

Page 61: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Conversão de Atributos<!ELEMENT Publication (Year,...,Author+,...,Book?)><!ATTLIST Publication Title CDATA #REQUIRED><!ELEMENT Year (#PCDATA)><!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Book

Titlestring

(1,1)(1,1)

Page 62: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

realiza validações manuais e automáticas para uma melhor adequação do esquema ao domínio

Page 63: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Validações Manuais

Publication

Proceedings(1,1)(1,1)(1,1)(1,1)

Publication

Proceedings

Page 64: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Validações Automáticas

Publication

Proceedings Book

Title(1,1)(1,1)(1,N)(1,N)

(1,1)(1,1)(1,N)(1,N)

Title (1,1)(1,1)(1,N)(1,N)

Book

Proceedings

Publication

Page 65: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

Page 66: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 67: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Etapa de Integração Semântica• Baseada em regras e algoritmos de

unificação• Diferencial em relação a outros trabalhos

– trata as particularidades de integração de esquemas XML

• representações textuais e/ou estruturadas• representações alternativas

Page 68: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 69: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

determinação de equivalências entre conceitos:• graus de afinidade• agrupamento em clusters

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 70: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

integração semântica de conceitos presentes em um mesmo cluster

Page 71: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Unificação• Regras e algoritmos aplicadas a três casos

de unificação– Unificação L x L (cluster léxico)– Unificação NL x NL (cluster não-léxico)– Unificação NL x L (cluster misto)

Page 72: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Unificação L x L

Numberinteger

Nrinteger

Numberfloat

Numberfloat

string

Businessstring

Enterprisestring

(1) (2)Enterprise

(3)(1) (2)

Page 73: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Unificação NL x NL

WriterName(1,1) (1,N)

E-mail

(1,1)(1,N)

Author

AuthorName(1,1) (1,N)

(2)(1)

University

Business

Name(1,1) (1,1)

(1,N)

(1,N)

(1,1)

(1,N)

University

(1,1)

(1,N)

E-mail(1,1)(0,N)

University

Business(1,N) (0,1)

(1,N)(1,N)

Page 74: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Unificação NL x L

City

Publishing-House

Manual

(1,N)

(1,1)

Namestring

(1,N)

(1,1)

string

(1,1)

(0,N)

(2)

Publisher

string

(1)

Publisher (2) Publishing-House/Name (1)(mapeamento 1:1)

City

Publishing-House

Manual

(1,N)

(1,1)

Namestring

(1,N)

(1,1)

string

(1,1)

(0,N)

DTD 2: Publisher

Page 75: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Unificação NL x LAddress

StreetCity

(1,N)

(1,1)(1,1)

Number

(1,1)

stringstringinteger

(1,N)

(1,N)(1)

Address

string

(2)

Address (2) Address/Street Address/Number Address/City (1) (mapeamento 1:N)

Address

DetailedAddress TextualAddressTextualAddress

Text

string

(1,N) (1,1)Street(1,N)(1,1)

City

(1,N)(1,1)

string

Number

(1,1)

integer

(1,N)

string

DTD 1: Address DTD 2: Address

Page 76: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

consideração de novos relacionamentos de herança relevantes para o domínio

Page 77: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Inclusão de Relações de Herança

PublicationTitle (1,1)string

(1,N)

Manual

(1,1)

(1,N)

e

<Publication BT Manual>

PublicationTitle (1,1)string

(1,N)

Manual

(1,1)

(1,N)

relacionamento relevante?

Page 78: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

validações manuais e automáticos para uma melhor adequação do esquema global ao domínio

Page 79: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Ajuste de Disjunções

Publication

Proceedings BookManual

Publication

Proceedings BookManual

+

Publication

Proceedings BookManual

Publication

Proceedings BookManual

Page 80: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Simplificação do Esquema

PublicationTitle (1,1)string

(1,N)

Manual

(1,1)

(1,N)

PublicationTitle (1,1)string

(1,N)

Manual

Page 81: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 82: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Roteiro1. Introdução2. Abordagem de Integração Proposta3. Modelo Canônico e Mapeamentos4. Etapa de Conversão da DTD5. Etapa de Integração Semântica6. Considerações Finais

Page 83: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Contribuições• Um processo de conversão de uma DTD

para um esquema conceitual• Um processo de integração semântica de

esquemas XML• Uma estratégia de mapeamento baseado

no padrão XPath

Page 84: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos RelacionadosTrabalho Integração Processo Modelo

CanônicoTSIMMIS manual bottom-up grafoGarlic manual bottom-up ODMGMIX manual bottom-up DTDDIXSE manual bottom-up conceitualJensen manual bottom-up UMLYAT manual - árvoreMcBrien manual - grafoVdovjak manual top-down conceitualXyleme semi-automático top-down DTDLSD semi-automático top-down DTDLim semi-automático bottom-up grafoTESE semi-automático bottom-up conceitual

Page 85: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos RelacionadosTrabalho Técnicas de Integração Integração de esquemas XMLCUPID • análise de informação do

esquema• análise de nomenclatura• análise de estrutura

• não tratam a integração de representações alternativas de elementos (disjunções)• não tratam de forma completa a integração de elementos textuais com estruturados

MOMIS

TESE • análise de informação do esquema• análise de nomenclatura• análise de estrutura• análise de informação análise de informação de instânciasde instâncias

• tratam a integração de tratam a integração de disjunçõesdisjunções• consideram várias consideram várias alternativas para a alternativas para a integração NL x Lintegração NL x L

Page 86: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos RelacionadosTrabalho Limitações de Modelagem Conceitual TESE

CUPID • não modela representações alternativas de elementos• não filtra elementos irrelevantes para o domínio

MOMIS • esquema conceitual definido manualmente

Vdokjak • esquema conceitual definido manualmente

DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio

Page 87: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos Futuros• Comparação de esquemas

– técnicas de integração baseada em instâncias• aprendizado de máquina, PLN

• Mapeamento– desenvolvimento do módulo processador de

consultas do Mediador• validação da estratégia de mapeamento

– consideração de restrições de integridade• Fonte X: Sigmod Record Journal

– Journal — Title (Fonte X: [Title = “Sigmod Record”])

Page 88: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Trabalhos Futuros• Processo de integração

– abstração de esquemas em XML-Schema– consulta a vários Thesauri

• comparação de termos em diversas línguas– análise de performance dos algoritmos

• otimização de processamento– realização de mais estudos de caso

• validação da aplicabilidade das regras e algoritmos– desenvolvimento de um protótipo completo

Page 89: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Publicações• Abordagem de integração

– “A Method for the Unification of XML Schemata”• Mello, R.; Castano, S.; Heuser, C. Information & Software

Technology, v.44, n.4, Mar 2002.

– “A Rule-Based Conversion of a DTD to a Conceptual Schema”

• Mello, R.; Heuser, C. Proceedings of the XX International Conference on Conceptual Modeling (ER’2001), Yokohama, Japan, Springer-Verlag, Nov 2001.

– “A Bottom-Up Approach for Integration of XML Sources”

• Mello, R.; Heuser, C. Proceedings of the International Workshop on Information Integration on the Web (WIIW’2001), Rio de Janeiro, Brazil, Apr 2001.

Page 90: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Publicações• Estado da arte

– “Dados Semi-Estruturados”• Mello R. et. al. Anais do XV Simpósio Brasileiro de Banco

de Dados (SBBD’2000) / XIV Simpósio Brasileiro de Engenharia de Software – Mini-cursos e Tutoriais, João Pessoa, Brasil, Out. 2000.

– “Aplicação de Ontologias a Dados Semi-Estruturados”

• Mello R., Heuser, C. Anais da XXVI Conferencia Latinoamericana de Informática (CLEI’2000), Cidade do México, México, Set, 2000 (ed. eletrônica)

Page 91: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica

de Esquemas XMLde Esquemas XML

Tese de Doutoradopor

Ronaldo dos Santos Mello

Prof. Carlos Alberto HeuserOrientador

UFRGS/II - PPGC

Page 92: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

ORM x ER• ER

– dicotomia Entidade-Atributo

Author University

<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD

University

Author

affiliation

ER:name

Page 93: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

ORM x ER• ORM

– somente um construtor de modelagem para representação de informação léxica

ORM: Author University

<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD

Page 94: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

ORM x ER• ER

– elementos léxicos compartilhados não podem ser modelados como atributos

<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>

DTD

AuthorName

CompanyName

ER:

Page 95: Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador

ORM x ER• ORM

– não há restrição de modelagem para conceitos léxicos compartilhados

ORM: Author Name

<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>

DTD

Company