1iii conf. da apsi 20 -22, nov. 2002 xml na demografia histórica: anotação de registos paroquiais...

38
1 III Conf. da APSI 20 -22, Nov. 200 2 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques Universidade do Minho Guimarães/Braga - Portugal

Upload: internet

Post on 17-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

1III Conf. da APSI

20 -22, Nov. 2002

XML na Demografia Histórica: Anotação de Registos Paroquiais

Rafael Félix,

Fernanda Faria,

Maribel Santos,

Pedro Henriques

Universidade do Minho

Guimarães/Braga - Portugal

Page 2: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 2

Objectivo da Comunicação

Propor a anotação em XML dos registos paroquiais (RPs) – baptizado, casamento e óbito – de modo a construir

uma base documental que suporte o estudo da evolução demográfica segundo o MRP (Método de Reconstituição de Paróquias)

Page 3: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 3

Objectivo da Comunicação

Constitui-se assim

uma base mais rica que as tradicionais bases de dados paroquiais

no sentido em que se abrem novas possibilidades de exploração da informação

Page 4: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 4

Plano da Comunicação

Caracterização do contexto de trabalho SEED XML

Os RPs e a Aquisição de dados Os RPs em XML

Anotação Edição e Validação Processamento

Potencialidades da Anotação

Page 5: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 5

Caracterização do contexto de trabalho

Estudo da Evolução Demográfica com base no levantamento dos registos paroquiais seguindo o MRP; o SEED

Processamento de documentos estruturados com base na sua anotação em XML

Page 6: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 6

SEED (estudo evolução demográfica)

Sistema informático para

Auxiliar os Demógrafos na realização das análises dos dados (indivíduos+famílias) que lhes permitem compreender a evolução do comportamento das populações (rurais e urbanas) ao longo dos séculos e em zonas distintas

Page 7: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 7

SEED: Objectivo do Estudo

Permite o estudo daFecundidadeNupcialidadeMortalidade.....

sendo suportado pelo MRP que se baseia no cruzamento de registos de

BaptizadoCasamentoÓbito

Page 8: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 8

5

4

3

1

2

Basede

DadosCentral

Módulo deConsolidação de Dados

Módulo de Descoberta deConhecim ento

Sistem a de I nform açãoGeográfica

Módulo Dedutivo

Módulo OLAP/ EI S

Sistem a de Raciocínio Baseadoem Casos

Sis

tem

a B

asead

o e

m C

on

hecim

en

to

Extracção deDados

T ransform açãode Dados

Aquisição de Dados

Bases deDados

SEED: Arquitectura para Análise de Dados e Extracção de Conhecimento

Page 9: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 9

Anotação de documentos em XML

XML: meta-linguagem para anotação de documentos organizados em tipos

Com XML podem definir-se sistemas de anotação (linguagens específicas) para:

cartas, memorandos, relatórios, manuais, poemas, certidões, declarações, petições, exames, pautas, horários, etc ...

Page 10: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 10

Anotação de documentos em XML

DTD ou XML-Schema: para cada tipo, define as marcas possíveis, seus atributos e a maneira como se agrupam

<!ELEMENT carta (remete, destino, data, assunto, abertura, corpo, fecho)>

< xs:element name = “carta”>

<xs:complexType>

<xs:sequence>

<xs:element name = “remete”>

...

<xs: element name = “fecho”>

</xs:sequence> </xs:complexType> </ xs:element >

Page 11: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 11

Anotação de documentos em XMLUm documento anotado: evidencia a sua

estrutura geral e a interpretação de elementos nele contidos, sem informação quanto à formatação ou transformação

<livro>

<abertura>Este livro hade servir ...</abertura>

<registo>

Aos <data valor=“18000102” deQue=“Bapt”>dois dias do mes de Janeiro do anno de mil e oitocentos</data>, n’esta <local>Igreja Paroquial da Villa das Lages do Pico</local> ...

</registo>

</livro>

Page 12: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 12

Anotação de documentos em XML

Um documento anotado: pode ser validado e posteriormente processado

Validar = verificar a estrutura face ao DTD/Schema (Parsing)

Processar = formatar | transformar | pesquisar | extrair

Page 13: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 13

Anotação de documentos em XML

XSL: linguagem para processamento de documentos anotados

XSLT – linguagem de transformação

Xpath – linguagem de selecção

XSL Formating Objects – linguagem para especificação de formatações

Page 14: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 14

Plano da Comunicação

Caracterização do contexto de trabalho SEED XML

Os RPs e a Aquisição de dados Os RPs em XML

Anotação Edição e Validação Processamento

Potencialidades da Anotação

Page 15: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 15

Os RPs e a Aquisição de dados

Como era

Leitura local e exaustiva dos RPs

extracção manual dos dados necessários para reconstituição de famílias

bases de dados paroquiais

Page 16: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 16

Os RPs e a Aquisição de dados

Como poderia ser

Digitalização integral do documento anotação

processamento automático bases de dados, etc. ...

Page 17: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 17

Os RPs e a Aquisição de dados

Devido às limitações actuais do SW para OCR,

Como tem de ser

Edição/Anotação manual auxiliada do documento integral

processamento automático

bases de dados, etc. ...

Page 18: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 18

Plano da Comunicação Caracterização do contexto de trabalho

SEED XML

Os RPs e a Aquisição de dados Os RPs em XML

Anotação Edição e Validação Processamento

Potencialidades da Anotação

Page 19: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 19

Anotação de RPs em XML

A Anotação dos Registos Paroquiais requer

a criação de um novo dialecto de XML específico para essa família de documentos: Schema-RP

Page 20: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 20

Anotação de RPs em XML

As grandes decisões: DTD versus XML-Schema 3 Sistemas de Anotação versus 1

único Escolha dos Elementos apropriados

e seus Atributos

Page 21: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 21

Anotação de RPs em XML

1ªfase:Elementos para identificar os dados explícitos

no texto: nome, morada, idade, profissão, ...

Elementos para identificar a “personagem” a quem os dados se referem:

noivo, noiva, falecido, pai, mãe, .......

O mesmo Elemento é aberto várias vezes com conteúdos diversos

Page 22: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 22

Anotação de RPs em XML

2ªfase:

Elementos que identificam em simultâneo os dados explícitos no texto e a “personagem” a quem se referem:

noivo.nome, noivo.morada, noiva.idade, noiva.profissão, ...

O número de Elementos distintos aumenta consideravelmente;

e a sua ortografia é pesada

Page 23: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 23

Anotação de RPs em XML

3ªfase:

Elementos genéricos que identificam os dados explícitos no texto:

nome, morada, idade, profissão, ...

combinados com Atributos cujos valores (“noivo”, “noiva”,

“pai”, “mãe”) especificam a “personagem” a quem se referem:

nome - deQuem, local - deQue,

Idade - deQuem, data - deQue, ...

O número de Elementos e Atributos é reduzido;

o sistema de anotação fica bem legível

Page 24: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 24

Anotação em Schema-RP: Exemplo de 1 Registo de casamento <registo>

<notaMargem>

<numero>6</numero>

<nome deQuem="individuo">Francisca Maria</nome>

</notaMargem>

<texto>Aos <data deQue="obito" deQuem="individuo" norm="1876-01-28">vinte e oito dias do mez de janeiro do anno de mil oitocentos setenta e seis</data>, ás <hora deQue="obito" deQuem="individuo" norm="02:00">duas horas da noite</hora>, <local deQue="obito" deQuem="individuo" tipo="lugar">em huma caza da Canada do Ajudante, ......

E para constar lavrei em duplicado este assento, que assigno. ???????.__

</texto>

<assinatura>O'Vigario Antonio Homem da Costa</assinatura>

</registo>

Page 25: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 25

Edição/Validação de RPs em XML

Características desejáveis para um Editor: Associação fácil do DTD/XML-Schema

ao novo documento Escrita ágil do novo texto base, ou fácil

abertura dum existente Indicação dos Elementos/Atributos que

se podem escolher em cada momento Indicação dos Valores possíveis para

cada Atributo Integração dum Parser

Page 26: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 26

Edição/Validação de RPs em XML

Alternativas: XML-Spy (Altova) X-Metal (SoftQuad) Document Editor (Altova)

Por satisfazer bem todos os requisitos a escolha recaiu sobre o XML-Spy

Page 27: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 27

Edição/Validação:Exemplo de uma sessão

Page 28: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 28

Edição/Validação de RPs em XML

Fases da Edição: Anotação com os Elementos (inserção

das “marcas” abertura/fecho) Anotação com os Atributos (adição dos

atributos a cada elemento e indicação do seu valor em função do contexto)

Page 29: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 29

Processamento de RPs em XML

Caso 1: Visualização em HTML

Foi criada uma style-sheet XSL para gerar páginas HTML a partir de um livro de registos anotado em Schema-RP

Assim, através de browser W W W é possível ver os registos num formato análogo ao original

Page 30: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 30

Visualização em HTML:Exemplo

Page 31: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 31

Processamento de RPs em XML

Caso 2: Geração de SQL para alimenção da BDP

Foi criada uma style-sheet XSL para gerar SQL com vista a inserir nas tabelas de Indivíduos e Famílias (da BDP) os dados relevantes que se podem extrair de cada registo anotado em Schema-RP

As complexas relações familiares e a dificuldade na identificação de Indivíduos não permitiu a alimentação automática (em 1 só passo) da BDP

Page 32: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 32

Processamento de RPs em XML

Caso 2: Geração de SQL para alimenção da BDP

Solução: sistema semi-automático, em 2 passos:

1ºpasso: via uma interface (interactiva) em VB todos os Indivíduos são identificados e certos campos codificados;daqui resulta um novo doc. XML sem ambiguidades e com “chaves”

2ºpasso: é gerado código SQL para inserção dos registos na BDP a partir desse novo documento XML

Page 33: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 33

Plano da Comunicação Caracterização do contexto de trabalho

SEED XML

Os RPs e a Aquisição de dados Os RPs em XML

Anotação Edição e Validação Processamento

Potencialidades da Anotação

Page 34: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 34

Potencialidades da Anotação

Para além da BD Paroquial que suporte as análises

fica-se com uma base documental com os documentos originais

disponíveis paraformatação (visualização/impressão)pesquisa e criação de índicesanálises linguísticas diversas (ortografia, estilos, análises de assinaturas, etc.) ...

Page 35: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 35

Conclusão

No contexto da Exploração de Registos Paroquiais com vista à construção dum Repositório de Conhecimento Demográfico,

Propôs-se o uso de uma linguagem específica XML para armazenamento integral dos documentos anotados,

Com vista a aumentar a automatização da aquisição e as potencialidades de exploração

Page 36: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 36

Conclusão

O XML-Schema para a linguagem Schema-RP foi criado

A edição está (semi-)resolvida

Foram desenvolvidas duas transformações (visualização HTML e geração de SQL)

O sistema está aberto a novas aplicações

... e a novas interfaces: multi-modais,

para PDAs

Page 37: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 37

Equipe

Os Autores Consultores

Orlando Belo Paulo Novais

Estagiários Grupos de Projecto (Opção 3)

Page 38: 1III Conf. da APSI 20 -22, Nov. 2002 XML na Demografia Histórica: Anotação de Registos Paroquiais Rafael Félix, Fernanda Faria, Maribel Santos, Pedro Henriques

20 -22, Nov. 2002

III Conf. da APSI 38

Colaboradores

Anália Lourenço Sérgio Passos Américo, Jorge,

Sandra Lopes Cristina, Sandra António, Celeste,

Paula

Alexandre, António, Manuel

Candida, M.Manuel, Nádea

Pedro, Solange Rafael Félix Patrícia Leite Fernanda Faria