uma abordagem bottom-up para a integração semântica de esquemas xml

95
Uma Abordagem Uma Abordagem Bottom-Up Bottom-Up para a Integração para a Integração Semântica de Esquemas Semântica de Esquemas XML XML Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador UFRGS/II - PPGC

Upload: bliss

Post on 11-Jan-2016

23 views

Category:

Documents


2 download

DESCRIPTION

UFRGS/II - PPGC. Uma Abordagem Bottom-Up para a Integração Semântica de Esquemas XML. Tese de Doutorado por Ronaldo dos Santos Mello Prof. Carlos Alberto Heuser Orientador. Roteiro. Introdução Abordagem de Integração Proposta Modelo Canônico e Mapeamentos Etapa de Conversão da DTD - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica

de Esquemas XMLde Esquemas XML

Tese de Doutoradopor

Ronaldo dos Santos Mello

Prof. Carlos Alberto Heuser

Orientador

UFRGS/II - PPGC

Page 2: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

• Introdução

• Abordagem de Integração Proposta

• Modelo Canônico e Mapeamentos

• Etapa de Conversão da DTD

• Etapa de Integração Semântica

• Considerações Finais

Page 3: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 4: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Motivação

• Contexto do problema– consultas a fontes de dados heterogêneas e semi-

estruturadas na Web– foco em dados XML

• Áreas de pesquisa– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas

Page 5: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Motivação

• Contexto do problema– consultas a fontes de dados heterogêneas e semi-

estruturadas na Web– foco em dados XML

• Áreas de pesquisa– integração de esquemas– tradução e otimização de consultas globais– integração de resultados de consultas

Page 6: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Objetivo da Tese

• Uma abordagem de integração semântica de esquemas XML – semi-automático

• mínima intervenção do usuário

– processo bottom-up• esquema global que representa de forma garantida

todas as informações dos esquemas das fontes

– modelo canônico conceitual• alto nível de abstração

Page 7: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico

TSIMMIS manual bottom-up grafo

Garlic manual bottom-up ODMG

MIX manual bottom-up DTD

DIXSE manual bottom-up conceitual

Jensen manual bottom-up UML

YAT manual - árvore

McBrien manual - grafo

Vdovjak manual top-down conceitual

Xyleme semi-automático top-down DTD

LSD semi-automático top-down DTD

Lim semi-automático bottom-up grafo

CUPID semi-automático bottom-up conceitual

MOMIS semi-automático bottom-up conceitual

Page 8: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos RelacionadosTrabalho Integração Processo Modelo Canônico

TSIMMIS manual bottom-up grafo

Garlic manual bottom-up ODMG

MIX manual bottom-up DTD

DIXSE manual bottom-up conceitual

Jensen manual bottom-up UML

YAT manual - árvore

McBrien manual - grafo

Vdovjak manual top-down conceitual

Xyleme semi-automático top-down DTD

LSD semi-automático top-down DTD

Lim semi-automático bottom-up grafo

CUPID semi-automático bottom-up conceitual

MOMIS semi-automático bottom-up conceitual

Page 9: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Características

• não tratam a integração de

representações alternativas

de elementos• não tratam de forma completa

a integração de elementos

textuais com estruturados

Limitações na integração de esquemas XML

MOMIS

CUPID

Trabalho

Page 10: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Características

Trabalho Limitações da Modelagem Conceitual

CUPID • não modela representações alternativas de

elementos• não filtra elementos irrelevantes para o domínio

MOMIS • esquema conceitual definido manualmente

Vdokjak • esquema conceitual definido manualmente

DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio

Page 11: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Proposta da Tese

• Processo de integração semântica de esquemas XML– tratamento dos casos de unificação de

elementos heterogêneos– modelagem canônica conceitual de um

esquema XML• análise do esquema XML• inferências semânticas (heurísticas)

• análise de documentos XML

Page 12: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 13: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Arquitetura de Mediação

Sites Web Documentos

XML

Sites Web

Page 14: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Camada de Wrappers

Wrapper 1 Wrapper nDTD 1

DTD n

Sites Web

...

Documentos XML

Sites Web

• disponibiliza um esquema local para uma ou mais fontes• executa consultas nestas fontes

Page 15: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mediador

Wrapper 1 Wrapper nDTD 1

DTD n

Consulta local textual

Usuário Especialista

Mediador

DTDs Documentos XML Locais

Sites Web

...

Documentos XML

Sites Web

EsquemaGlobal

• integra esquemas locais• gerencia consultas globais a um conjunto de fontes

Documento XML globalConsulta global textual

Page 16: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Interface de Consulta

Wrapper 1 Wrapper nDTD 1

DTD n

Consultas locais textuais

Documento XML global

EsquemaGlobal

Usuário Especialista

Mediador

Interface de Consulta

DTDs

Consulta global Resultados

Documentos XML Locais

Sites Web

Consulta global textual

...

Documentos XML

Sites Web

• define consultas sobre o esquema global• apresenta os resultados

Page 17: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração Semântica

Camada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 18: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração Semântica

Camada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 19: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração

DTD 1DTD n

Esquema Global

Usuário Especialista

Integração Semântica

Camada de Mediação

. . .Esquema Conceitual 1 Esquema Conceitual n

. . .

Conversão da DTD

ARTEMIS

Documentos XML

Documentos XML

Conversão da DTD. . .

Page 20: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 21: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos3.1 Modelo Conceitual Canônico (MCC)

3.2 Mapeamento MCC-DTD

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 22: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Modelo Conceitual Canônico (MCC)

• Variante do ORM (Object with Roles Model)

Halphin, T. Object-Role Modeling (ORM/NIAM), Handbook on Architectures of Information Systems. Springer-Verlag, 1998.

– notação gráfica do modelo ER

Page 23: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

Page 24: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

conceito NL

(1,N)

Page 25: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

conceito L

(1,N)

Page 26: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

relacionamento de associação

(1,N)

Page 27: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCC

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

relacionamento de herança

(1,N)

Page 28: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Exemplo de Esquema MCCdisjunção

Publication

Proceedings

Title

Business

University

AddressConference

Publisher

Book

(1,N)

homeAddress

(0,1)

(1,N)

(1,N)

(1,1)

(1,N)

(1,N)

(1,N)

(1,N)

(1,N)

(1,1)(1,1)

(1,N)

(1,1)

(1,1)

{technical, fiction}

Category

Author

Name(1,1)

(1,N)

workAddress

(1,1)

(1,N)

StreetCity

(1,N)(1,N)(1,1) (1,1)

Number

(1,N)(1,1)

string

string

string

string

string

string

string

integer

string integer

(1,N)

Page 29: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos3.1 Modelo Conceitual Canônico (MCC)

3.2 Mapeamento MCC-DTD

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 30: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento MCC - DTD

• Informação de mapeamento– correspondência entre o esquema global e os

esquemas locais– finalidade: tradução de consultas globais

• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões

Page 31: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento MCC - DTD

• Informação de mapeamento– correspondência entre o esquema global e os

esquemas locais– finalidade: tradução de consultas globais

• Abordagens para definição de mapeamentos– catálogos de mapeamento– visões

Page 32: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento MCC - DTD

• Estratégia de mapeamento– expressões de caminho XPath associadas a

conceitos e relacionamentos do esquema global

– por quê XPath?• XPath é um padrão para consulta a dados XML• visão XPath: expressão direta de busca para um

elemento ou atributo em uma fonte XML

Page 33: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Conceitos

• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 34: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Conceitos

• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 35: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Conceitos

• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/AuthorList

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 36: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Conceitos

• Expressão de caminho absoluto XPath

Book(1,N)

Author

(1,N)

DTD X : /Book/AuthorList/Author

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 37: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

Page 38: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor:

Page 39: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor: AuthorList

Page 40: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

BookAuthor: AuthorList/Author

Page 41: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book:

Page 42: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book: ..

Page 43: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Mapeamento de Relacionamentos

• Expressão de caminho relativo XPath

Book(1,N)

Author

(1,N)

DTD X<!ELEMENT Book (AuthorList, ...)><!ELEMENT AuthorList (Author+)><!ELEMENT Author (...)>

DTD X:

Author Book: ../..

Page 44: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 45: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Etapa de Conversão da DTD

• Contribuição principal da abordagem– diferencial em relação a outros trabalhos

• define um esquema semântico para uma DTD • resulta de uma análise detalhada do esquema +

dados de documentos XML + inferências semânticas

– modelagem canônica +adequada ao domínio

esquema global +preciso

Page 46: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

Page 47: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

modifica detalhes de estruturação da DTD:• remoção de informação irrelevante para o domínio• tratamento de elementos com aninhamento• renomeação de informação

Page 48: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Remoção de Elementos

<!ELEMENT Book(AuthorList, Publisher)>

...

<!ELEMENT AuthorList(Author)+>

Page 49: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Remoção de Elementos

<!ELEMENT Book(AuthorList, Publisher)>

...

<!ELEMENT AuthorList(Author)+>

<!ELEMENT Book((Author)+, Publisher)>

Page 50: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Tratamento de Aninhamentos

<!ELEMENT Address((Street, Number)?, City)>

Page 51: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Tratamento de Aninhamentos

<!ELEMENT Address((Street, Number)?, City)>

<!ELEMENT Address(AddressGroup1?, City)>

<!ELEMENT AddressGroup1(Street, Number)>

Page 52: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

gera os conceitos e relacionamentos de um esquema MCC com base:• nas definições de elementos e atributos da DTD• nos documentos XML

Page 53: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Regras de Conversão<!ELEMENT Publication (Year,...,Author+,...,Book?)>

Page 54: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Conversão de Elemento Composto<!ELEMENT Publication (Year,...,Author+,...,Book?)>

Publication

Page 55: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Conversão de Elemento Simples<!ELEMENT Publication (Year,...,Author+,...,Book?)>

<!ELEMENT Year (#PCDATA)>

Yearinteger

Publicationanálise de docs XML

default: string

Page 56: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Análise de Documentos XML

• Análise de tipo de dado

...<Year>2002</Year> ...<Year>1999</Year>...<Year>1995</Year> ...

Tipo de dado de Year: integer

Page 57: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)>

<!ELEMENT Year (#PCDATA)>

Yearinteger

Publication

(1,1)

(1,N)default: (1,N)

regras decardinalidade

Page 58: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Análise de Documentos XML

• Análise de cardinalidade inversa...<Publication Title = “XML”> ... <Year>2002</Year> ... </Publication>...<Publication Title = “XPath”> ... <Year>2002</Year> ...</Publication>...

CardinalidadeYearPublication: (1,N)

Page 59: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Conversão de Componentes<!ELEMENT Publication (Year,...,Author+,...,Book?)>

<!ELEMENT Year (#PCDATA)>

<!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Page 60: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Heurística de Herança<!ELEMENT Publication (Year,...,Author+,...,Book?)>

<!ELEMENT Year (#PCDATA)>

<!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Book

consulta à Thesaurus (Wordnet)

<Publication BT Book>

Page 61: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Conversão de Atributos<!ELEMENT Publication (Year,...,Author+,...,Book?)>

<!ATTLIST Publication Title CDATA #REQUIRED>

<!ELEMENT Year (#PCDATA)>

<!ELEMENT Author(..., University+ | Business)>

Yearinteger

Publication

(1,1)

(1,N)

Author

Universitystring

(1,N)(1,N)

Businessstring

(1,N)(1,1)

Book

Titlestring

(1,1)(1,1)

Page 62: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

realiza validações manuais e automáticas para uma melhor adequação do esquema ao domínio

Page 63: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Validações Manuais

Publication

Proceedings

(1,1)(1,1)

(1,1)(1,1)

Publication

Proceedings

Page 64: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Validações Automáticas

Publication

Proceedings Book

Title(1,1)(1,1)(1,N)(1,N)

(1,1)(1,1)(1,N)(1,N)

Title(1,1)(1,1)(1,N)(1,N)

Book

Proceedings

Publication

Page 65: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Conversão

Documentos XML

Usuário Especialista

Pré-Processamento

DTD

DTDPré-Processada

Conversão

Esquema Conceitual Preliminar

Reestruturação

Esquema Conceitual

Definitivo

Fonte XML

Page 66: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 67: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Etapa de Integração Semântica

• Baseada em regras e algoritmos de unificação

• Diferencial em relação a outros trabalhos – trata as particularidades de integração de

esquemas XML • representações textuais e/ou estruturadas• representações alternativas

Page 68: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 69: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

determinação de equivalências entre conceitos:• graus de afinidade• agrupamento em clusters

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 70: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

integração semântica de conceitos presentes em um mesmo cluster

Page 71: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Unificação

• Regras e algoritmos aplicadas a três casos de unificação– Unificação L x L (cluster léxico)– Unificação NL x NL (cluster não-léxico)– Unificação NL x L (cluster misto)

Page 72: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Unificação L x L

Number

integer

Nr

integer

Number

floatNumber

float

string

Business

string

Enterprisestring

(1) (2)

Enterprise

(3)(1) (2)

Page 73: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Unificação NL x NL

WriterName(1,1) (1,N)

E-mail

(1,1)

(1,N)

Author

AuthorName(1,1) (1,N)

(2)(1)

University

Business

Name(1,1) (1,1)

(1,N)

(1,N)

(1,1)

(1,N)

University

(1,1)

(1,N)

E-mail

(1,1)(0,N)

University

Business(1,N) (0,1)

(1,N)(1,N)

Page 74: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Unificação NL x L

City

Publishing-House

Manual

(1,N)

(1,1)

Name

string

(1,N)

(1,1)

string

(1,1)

(0,N)

(2)

Publisher

string

(1)

Publisher (2) Publishing-House/Name (1)(mapeamento 1:1)

City

Publishing-House

Manual

(1,N)

(1,1)

Name

string

(1,N)

(1,1)

string

(1,1)

(0,N)

DTD 2: Publisher

Page 75: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Unificação NL x LAddress

StreetCity

(1,N)

(1,1)(1,1)

Number

(1,1)

stringstringinteger

(1,N)

(1,N)(1)

Address

string

(2)

Address (2) Address/Street Address/Number Address/City (1) (mapeamento 1:N)

Address

DetailedAddress TextualAddressTextualAddress

Text

string

(1,N) (1,1)Street(1,N)(1,1)

City

(1,N)(1,1)

string

Number

(1,1)

integer

(1,N)

string

DTD 1: Address DTD 2: Address

Page 76: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

consideração de novos relacionamentos de herança relevantes para o domínio

Page 77: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Inclusão de Relações de Herança

PublicationTitle (1,1)

string

(1,N)

Manual

(1,1)

(1,N)

e

<Publication BT Manual>

PublicationTitle (1,1)

string

(1,N)

Manual

(1,1)

(1,N)

relacionamento relevante?

Page 78: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

validações manuais e automáticos para uma melhor adequação do esquema global ao domínio

Page 79: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Ajuste de Disjunções

Publication

Proceedings BookManual

Publication

Proceedings BookManual

+

Publication

Proceedings BookManual

Publication

Proceedings BookManual

Page 80: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Simplificação do Esquema

PublicationTitle (1,1)

string

(1,N)

Manual

(1,1)

(1,N)

PublicationTitle (1,1)

string

(1,N)

Manual

Page 81: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Processo de Integração Semântica

Usuário Especialista

Clusterização de SinônimosClusters deAfinidade

Esquema Conceitual 1

Reestruturação

Esquema Global

Definitivo

Esquema Conceitual n

Unificação

Inclusão de Relações de HerançaEsquema Global

Preliminar

ARTEMIS

...

Page 82: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Roteiro

1. Introdução

2. Abordagem de Integração Proposta

3. Modelo Canônico e Mapeamentos

4. Etapa de Conversão da DTD

5. Etapa de Integração Semântica

6. Considerações Finais

Page 83: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Contribuições

• Um processo de conversão de uma DTD para um esquema conceitual

• Um processo de integração semântica de esquemas XML

• Uma estratégia de mapeamento baseado no padrão XPath

Page 84: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos RelacionadosTrabalho Integração Processo Modelo

Canônico

TSIMMIS manual bottom-up grafo

Garlic manual bottom-up ODMG

MIX manual bottom-up DTD

DIXSE manual bottom-up conceitual

Jensen manual bottom-up UML

YAT manual - árvore

McBrien manual - grafo

Vdovjak manual top-down conceitual

Xyleme semi-automático top-down DTD

LSD semi-automático top-down DTD

Lim semi-automático bottom-up grafo

TESE semi-automático bottom-up conceitual

Page 85: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos Relacionados

Trabalho Técnicas de Integração Integração de esquemas XML

CUPID • análise de informação do

esquema• análise de nomenclatura• análise de estrutura

• não tratam a integração de

representações alternativas

de elementos (disjunções)• não tratam de forma completa

a integração de elementos

textuais com estruturados

MOMIS

TESE • análise de informação do

esquema• análise de nomenclatura• análise de estrutura• análise de informação análise de informação

de instânciasde instâncias

• tratam a integração de tratam a integração de

disjunçõesdisjunções• consideram várias consideram várias

alternativas para a alternativas para a

integração NL x Lintegração NL x L

Page 86: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos Relacionados

Trabalho Limitações de Modelagem Conceitual TESE

CUPID • não modela representações alternativas de

elementos• não filtra elementos irrelevantes para o domínio

MOMIS • esquema conceitual definido manualmente

Vdokjak • esquema conceitual definido manualmente

DIXSE • não modela relacionamentos de herança• não filtra elementos irrelevantes para o domínio

Page 87: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos Futuros

• Comparação de esquemas– técnicas de integração baseada em instâncias

• aprendizado de máquina, PLN

• Mapeamento– desenvolvimento do módulo processador de

consultas do Mediador• validação da estratégia de mapeamento

– consideração de restrições de integridade• Fonte X: Sigmod Record Journal

– Journal — Title (Fonte X: [Title = “Sigmod Record”])

Page 88: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Trabalhos Futuros

• Processo de integração– abstração de esquemas em XML-Schema– consulta a vários Thesauri

• comparação de termos em diversas línguas

– análise de performance dos algoritmos• otimização de processamento

– realização de mais estudos de caso• validação da aplicabilidade das regras e algoritmos

– desenvolvimento de um protótipo completo

Page 89: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Publicações• Abordagem de integração

– “A Method for the Unification of XML Schemata”• Mello, R.; Castano, S.; Heuser, C. Information & Software

Technology, v.44, n.4, Mar 2002.

– “A Rule-Based Conversion of a DTD to a Conceptual Schema”

• Mello, R.; Heuser, C. Proceedings of the XX International Conference on Conceptual Modeling (ER’2001), Yokohama, Japan, Springer-Verlag, Nov 2001.

– “A Bottom-Up Approach for Integration of XML Sources”

• Mello, R.; Heuser, C. Proceedings of the International Workshop on Information Integration on the Web (WIIW’2001), Rio de Janeiro, Brazil, Apr 2001.

Page 90: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Publicações

• Estado da arte– “Dados Semi-Estruturados”

• Mello R. et. al. Anais do XV Simpósio Brasileiro de Banco de Dados (SBBD’2000) / XIV Simpósio Brasileiro de Engenharia de Software – Mini-cursos e Tutoriais, João Pessoa, Brasil, Out. 2000.

– “Aplicação de Ontologias a Dados Semi-Estruturados”

• Mello R., Heuser, C. Anais da XXVI Conferencia Latinoamericana de Informática (CLEI’2000), Cidade do México, México, Set, 2000 (ed. eletrônica)

Page 91: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

Uma Abordagem Uma Abordagem Bottom-UpBottom-Up para a Integração Semântica para a Integração Semântica

de Esquemas XMLde Esquemas XML

Tese de Doutoradopor

Ronaldo dos Santos Mello

Prof. Carlos Alberto Heuser

Orientador

UFRGS/II - PPGC

Page 92: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

ORM x ER

• ER– dicotomia Entidade-Atributo

Author University

<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD

University

Author

affiliation

ER:name

Page 93: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

ORM x ER• ORM

– somente um construtor de modelagem para representação de informação léxica

ORM: Author University

<!ELEMENT Author (University)><!ELEMENT University (#PCDATA)> DTD

Page 94: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

ORM x ER

• ER– elementos léxicos compartilhados não podem

ser modelados como atributos

<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>

DTD

AuthorName

CompanyName

ER:

Page 95: Uma Abordagem  Bottom-Up  para a Integração Semântica de Esquemas XML

ORM x ER

• ORM– não há restrição de modelagem para conceitos

léxicos compartilhados

ORM: Author Name

<!ELEMENT Author (Name)><!ELEMENT Company (Name)><!ELEMENT Name (#PCDATA)>

DTD

Company