objetos complexos em bibliotecas digitais: analisando o … › ~nadiap › arquivos ›...

82
Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens adia Puchalski Kozievitch 1 Universidade Estadual de Campinas - Unicamp 15 de junho de 2011 adia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Component 15 de junho de 2011 1 / 82

Upload: others

Post on 31-May-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Objetos Complexos em Bibliotecas Digitais:Analisando o Gerenciamento de Componentes de

Imagens

Nadia Puchalski Kozievitch

1Universidade Estadual de Campinas - Unicamp

15 de junho de 2011

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 1 / 82

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 2 / 82

Sumario

Agradecimentos

Ao Prof. Ricardo;

A minha querida famılia e amigos;

Aos amigos do LIS, Recod e DLIB;

A Profa. Claudia Bauzer Medeiros, Andre Santanche, MarcosGoncalves, professores e alunos do Departamento de Biologia daUnicamp;

Aos Profs. Edward A. Fox, Michael Hsiao, Lynn Abbott, EricHallermann.

Aos Professores e Funcionarios do Instituto de Computacao;

Aos inumeros alunos que tive durante este processo:iniciacao cientıfica junior (Maria,Scheila, Naira) ;alunos gerenciados durante a estadia na Virginia Tech (Sherley, Jennifer, etc.);alunos da biologia - Unicamp;alunos de graduacao de MC536.

Capes, FAPESP, CNPq, NIJ (National Institute of Justice), BAESystems, e NSF IIS-0910183, IIS-0916733, DUE-0840719, eCCF-0722259.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 3 / 82

Introducao

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 4 / 82

Introducao

IntroducaoPONTOS CHAVE

Por que objetos complexos? Busca Baseada em Conteudo?

Conceitos e perspectivas tratadas?

Desafios?

Contribuicoes?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 5 / 82

Introducao

IntroducaoMotivacao

Abstracao dos conceitos de grupo, componentes heterogeneos,componente unico, integracao, interface.

Entidades fısicas do mundo real x entidades fısicas digitais

Definicao de granularidade, inclusao de links, sup-partes, referencias,etc.

Objetos Complexos: Objeto Complexo (Complex Object - CO):composto por varios componentes, conectados entre si.

A heterogeneidade de COs enfrenta os seguintes desafios:

ha pouco suporte por softwares de bibliotecas digitais;particularidades como direitos autorais dificultam que um CO sejatratado como um objeto unico;a busca tem que permitir nao somente a busca dos componentesindividuais como a busca do CO como um objeto unico.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 6 / 82

Introducao

Os principais desafios

Formalizacao de CO e seus componentes?

Tratamento da estrutura do CO? CO mınimo?

O relacionamento de componentes de um objeto complexo?

O acesso aos servicos do CO e de seus componentes heterogeneos?

A integracao de dados (como a integracao de dois COs diferentes) eseus servicos?

A descricao e integracao de tecnologias relacionadas a COs?

Como resolver as mesmas questoes no domınio de imagens?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 7 / 82

Introducao

As diferentes perspectivas da informacao

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 8 / 82

Introducao

As perspectivas tratadas

Tecnologias Formalização

Aplicações

CO

CBIR

ICO

objetodigital

identificador

componentes

estrutura

Buckets

DCC

OAI-ORE ObjetoComplexo

scorm

MPEG-21

METS

HDF

CtrNET

ImpressõesDigitais

SuperIDR

GIS

DLsMultilíngües

Figura: As perspectivas de CO tratadas nesta tese.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 9 / 82

Introducao

As principais contribuicoes deste trabalho sao:1 formalizacao de conceitos relacionados a CO, ICOs e CBIR;2 comparacao e analise das tecnologias DCC, Buckets e OAI-ORE;3 proposta e desenvolvimento de um prototipo que prove:

o bf acesso e gestao homogenea ao processo CBIR, e fontes de dados;a facil integracao do processo da busca de imagens por similaridadeatraves da componentizacao e encapsulamento;a distribuicao e coleta de metadados de ICOs, juntamente com seuscomponentes;o acesso aos componentes individuais e ao CO como entidade unica;a centralizacao do processamento, encapsulamento, publicacao ecoleta do ICO.

4 reuso em buscas multimodais;5 reuso em sumarizacao de vıdeos;6 exemplos e descricao de cenarios;7 exemplo de integracao de dados e processos no SuperIDR;8 exemplo de integracao de dados de impressoes digitais.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 10 / 82

Introducao

A organizacao da tese

1.Introdução

MotivaçãoMétodo de Pesquisa

Perguntas de Pesquisa

2. Trabalhos Relacionados

Bibliotecas DigitaisObjetos Complexos

CBIR

Objetos Complexos (CO) em Bibliotecas Digitais

4. Formalização deCO e CBIR

5. Analisando tecnologiasde CO da perspectiva

5S

6. Uma Infraestruturabaseada em DCC-OAI

7. Reuso da Infraestrutura:

Impressões Digitais,Busca Multimodal, eEstórias em Vídeo

8. Conclusão eTrabalhos Futuros

3. Aplicações

SuperIDRImpressões Digitais

No-Rau

Figura: A organizacao desta apresentacao.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 11 / 82

Introducao

Principais Termos e Acronimos Utilizados

Arcabouco 5S (5S Framework): Stream, Structures (Estruturas), Spaces(Espacos), Scenarios (Cenarios) e Societies (Sociedades).Biblioteca Digital (Digital Library - DL)): organizacoes que fornecem recursos,incluindo o suporte especializado para selecionar, organizar, interpretar, distribuir,preservar a integridade e garantir a persistencia ao longo do tempo de colecoesdigitais de obras.Busca de Imagens por Conteudo - (Content-Based Image Retrieval- CBIR):consiste na recuperacao automatica de imagens, com base nas propriedadesvisuais, tais como textura, forma ou cor.Objeto Complexo (Complex Object - CO)Digital Content Component (DCC) : modelo baseado em componentes, capazde encapsular e tratar exclusivamente conteudo em componentes.Objeto Complexo de Imagem (Image Complex Object - ICO)Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 12 / 82

Trabalhos Relacionados

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 13 / 82

Trabalhos Relacionados

Trabalhos RelacionadosPONTOS CHAVE

Objetos Complexos

Arcabouco 5S

DCC

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 14 / 82

Trabalhos Relacionados

Objetos Complexos

modos diferentes de estruturar objetos: atomico, composto e complexo.

Krafft et al.: COs sao entidades individuais que sao compostos de varios objetos digitais,cada uma dos quais e uma entidade em si;

Cheung et al. definiram o CO como o encapsulamento de varios conjuntos de dados e osrecursos gerados ou utilizados durante um experimento cientıfico, ou processo dedescoberta, dentro de uma unica unidade, para a publicacao e intercambio;

Perspectivas de CO:

ontologias: Gerber et al. especificaram por exemplo, uma ontologia para o encapsulamento derecursos digitais e registros bibliograficos;granularidade: Fonseca et al. mencionam a navegacao vertical;estabelecimento de padroes: Candela et al. exploraram a integralidade do CO;prioridade sobre os demais componentes: Candela et al. tambem examinaram a prioridade deum componente em relacao ao conjunto completo;portabilidade para a estrutura do CO: Park et al. exploraram a adaptacao da estrutura de COpara domınios diferentes;acesso aos componentes: Manghi et al. mencionaram os diferentes perfis de acesso paracomponentes distintos, como sugerido nos servicos de autenticacao e autorizacao;reutilizacao e preservacao digital: Rehberger et al. examinaram o papel secundario que osrepositorios podem desempenhar na preservacao e acesso de materiais digitais e patrimonioshistoricos;outros: rastreamento de proveniencia, e variacao temporal.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 15 / 82

Trabalhos Relacionados

Bibliotecas Digitais e Formalismos

1995 1998 2001

GrossmanDLF

2003

DL Report

Dexter

Amsterdam

TEI-P5

Delos

2005 2007 2009 2011

OPMEuropeana

Trabalhos Relacionados

Tempo

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 16 / 82

Trabalhos Relacionados

Formalismo 5S

1995 1998 2001

GrossmanDLF

2003

DL Report

Dexter

Amsterdam

TEI-P5

Delos

2005 2007 2009 2011

OPMEuropeana

5SL5Graph5S Framework

5S Suite

Quality

Min DLPDL

5S QUAL

DspaceIntegration

Trabalhos Relacionados

Tempo

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 17 / 82

Trabalhos Relacionados

Tecnologias de CO

1995 1998 2001

GrossmanDLF

Tempo

Trabalhos Relacionados

2003

DL Report

Dexter

Amsterdam

TEI-P5

Delos

2005 2007 2009 2011

OPMEuropeana

5SL5Graph5S Framework

5S Suite

Quality

Min DLPDL

5S QUAL

DspaceIntegration

DCC Ras x ims-cpFluid Web

Building Blocks

MPEGMPEG RDFMPEG RDFOWL

OAI-PMH

DC

SCORM

OAI-ORE

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 18 / 82

Trabalhos Relacionados

Arcabouco 5S

No formalismo 5S:Streams descrevem propriedades de conteudo, para material textual ou formas particulares de dados multimıdia;

Structures (Estruturas) especificam aspectos organizacionais (formatos de metadados, hipertextos, taxonomias, esquemas de classificacao);

Spaces (Espacos) definem visoes logicas e de apresentacao de varios componentes;

Scenarios (Cenarios) detalham o comportamento de servicos;

Societies (Sociedades) definem gerentes (responsaveis pela execucao de servicos), atores (usuarios desses servicos), e relacionamentos.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 19 / 82

Trabalhos Relacionados

Digital Content Component

A DCC e composto de quatro subdivisoes distintas:(a) conteudo: o conteudo em si;

(b) estrutura: a declaracao de uma estrutura de gestao que define como os componentesdentro de um DCC se relacionam entre si, em XML;

(c) interface: especificacao da interface do DCC usando padroes abertos para a descricaoda interface - WSDL e OWL-S (semantica);

(d) metadados: metadados para descrever versao, a funcionalidade, aplicabilidade, erestricoes de uso - usando OWL.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 20 / 82

Trabalhos Relacionados

Buckets

Sao objetos ativos de repositorios, e podem comunicar-se entre si, em forma de rede, ouem forma de servicos arbitrarios.

author tool e management tool;

e escrito em Perl 5;

faz uso do HTTP como um protocolo de transporte;

armazena os metadados na RFC 1807 (um formato para registros bibliograficos);

arquivos reunidos em um unico diretorio Unix.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 21 / 82

Trabalhos Relacionados

OAI-ORE

normas para a descricao e intercambio de agregacoes de recursos da Web;

mecanismos para de interoperabilidade para expressar COs;

congruente com a arquitetura Web, constituıda essencialmente por:

URIs para identificar objetos;recursos - itens que serao mapeados;protocolo padrao, como HTTP, habilitando o acesso aos recursos;links via referencias a URIs;named graphs para encapsular a informacao em objeto composto.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 22 / 82

Trabalhos Relacionados

Recuperacao de Imagens por Conteudo

recuperacao automatica de imagens, com base nas propriedades visuais, tais comotextura, forma ou cor;

descritores de imagens, que sao caracterizadas por:um algoritmo de extracao (descritor) para codificar caracterısticas da imagem em vetores decaracterısticas;uma medida de similaridade para comparar duas imagens;

N. P. Kozievitch, S. Codio, J. A. Francois, E. Fox, and R. da S. Torres. Exploring CBIR concepts in the CTRnet Project. Technical Report IC-10-32,University of Campinas, 2010.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 23 / 82

Estudos de Caso Preliminares e Aplicacoes

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 24 / 82

Estudos de Caso Preliminares e Aplicacoes

Estudos de Caso Preliminares e AplicacoesPONTOS CHAVE

Heterogeneidade na informacao

Impacto em servicos

O uso de composicao nos conceitos

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 25 / 82

Estudos de Caso Preliminares e Aplicacoes Superimposed Image Description and Retrieval Tool - SuperIDR

Superimposed Image Description and Retrieval Tool -SuperIDR

especificacao e implementacao de uma aplicacao para o suporte de busca e anotacao deimagens;e possıvel selecionar, anotar e recuperar partes de imagens no contexto da a imagemoriginal;validar o uso do tablet PC em um novo domınio (Parasitologia - Unicamp).

N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, Y. Chen, and E.Hallerman. Evaluation of a Tablet PC image annotation and retrieval tool in the parasitology domain. Technical Report IC-09-23, University of Campinas,2009.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 26 / 82

Estudos de Caso Preliminares e Aplicacoes Superimposed Image Description and Retrieval Tool - SuperIDR

Superimposed Image Description and Retrieval Tool -SuperIDR

Figura: Exemplos de imagens de parasitas.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 27 / 82

Estudos de Caso Preliminares e Aplicacoes A integracao de bibliotecas digitais de impressoes digitais

A integracao de bibliotecas digitais de impressoes digitais

unificacao de quatro bibliotecas digitais diferentes:

(DL1)- armazenamento de impressoes de digitais em bancos de dados;(DL2)- materiais de treinamento para examinadores de impressoes digitais;(DL3)- cena de crime;(DL4)- experimentos, analise, medidas de qualidade, e metodos de pareacao em bibliotecasdigitais.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 28 / 82

Estudos de Caso Preliminares e Aplicacoes A integracao de bibliotecas digitais de impressoes digitais

A integracao de bibliotecas digitais de impressoes digitais

Uma nocao de escala:suponha que uma imagem gera 100 imagens distorcidas.Multiplique por 25 milhoes de possıveis suspeitos.Em seguida, compare com uma imagem da cena do crime, que possui 55 impressoes digitaisparciais.Finalmente, selecione e relacione bons exemplos para uso em um treinamento.

N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence throughintegration of very large digital libraries. VLDL-(ECDL2010), 2010.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 29 / 82

Estudos de Caso Preliminares e Aplicacoes No-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

No-Rau: Biblioteca Digital de Teses e Dissertacoes daUnicamp

No-Rau 1 centraliza as teses digitais de estudantes da Unicamp para a comunidade emgeral;

centraliza documentos digitais de graduacao, mestrado, PhD e especializacoes;

problemas:

carece da agregacao de objetos digitais distintos (como audio, texto e imagem) e seus softwares;restricoes de acesso, devido a direitos legais especıficos ou restricoes de alguns produtos;diferente qualidade dos metadados;o uso de arquivos distintos (como audio e vıdeo).

outras aplicacoes ja enfrentaram os seguintes problemas:

softwares de DLs nao suportavam COs;como os componentes do CO tinham direitos legais distintos, eles nao poderiam ser tratadoscomo um objeto unico;suportar nao somente a busca dos componentes individuais, mas tambem a busca em que oscomponentes estao relacionados como um objeto unico.

1http://libdigi.unicamp.br/ (ultimo acesso em 05/05/11).Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 30 / 82

Formalizacao de CO e CBIR

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 31 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIRPONTOS CHAVE

Por que a representacao formal?

A representacao formal do CO

A representacao formal do ICO

Qual o uso do CO mınimo?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 32 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Um objeto complexo e uma tupla cdo = (h,SCDO = DO ∪ SM,S), onde:

1 h ∈ H, onde H e um conjunto universal de identificadores unicos (labels);

2 DO = {do1, do2, . . . , don}, onde doi e um objeto digital ou outro objeto complexo;

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e uma estrutura que compoe o objeto complexo cdo em suas partes em SCDO.

Nesta definicao:

Os componentes DO e SM sao conjuntos finitos, portanto, a estrutura S tambem e finita,delimitando o que pertence ao objeto complexo ou nao;

A estrutura S no objeto complexo nao e especificada;

considerar uma abordagem de alto nıvel: agregar logicamente e ate fisicamente, objetosdistintos;

a diferenca entre CO e colecao?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 33 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Um objeto complexo mınimo e uma tupla cdo = (h,SCDO = DO ∪ SM,S),onde:

1 h ∈ H, onde H e um conjunto universal de identificadores unicos (labels);

2 DO = {do1}, onde do1 e um objeto digital;

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e uma estrutura que indica que {do1} e um componente de cdo.

Nesta definicao:

o CO mınimo tem por objetivo definir a menor granularidade permitida;

caso nao sejam necessarias as agregacoes, o conceito de objeto digital pode ser utilizado.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 34 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

O objeto complexo que representa esta tese tem a estrutura

co = (h, SCDO = DO ∪ SM, S), onde:

h1 e um identificador unico que representa co;DO = {do1, do2, do3}, onde do1 e a tese, do2 e um arquivo Powerpoint, e do3 e um vıdeo;SM = {sm1, sm2, . . . , smn} e um conjunto de streams;S e a estrutura que identifica como do1, do2, e do3 estao agregados.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 35 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIRFormalizacao de conceitos de CBIR

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 36 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Uma stream de imagem (ou simplesmente imagem) I e um par (DI ,~I ), onde:

DI e um conjunto finito de pixels (pontos em 2, em que DI ⊂2), e~I : DI → D′ e uma funcao que assigna cada pixel p em DI a um~I (p) de valores em um espaco arbitrario D′ (por examplo,

D′ = IR3 quando uma cor no sistema RGB e assignada a um pixel).

Um vetor de caracterısticas ~fvI

de uma imagem I e um ponto no espaco n : ~fvI

= (fv1, fv2, ..., fvn), onde n e a dimensao do vetor.

Um objeto digital vetor de caracterısticas e um objeto digital do = (h, SM, ST, StructuredStreams) que representa o vetor de caracterısticas.

Dada a estrutura (G, L,F), G = (V , E) e um vetor de caracterısticas ~fvI

, um StructuredFeatureVector e uma funcao V →n que associa

cada nodo vk ∈ V com fvi ∈ ~fv I.

Um descritor de conteudo de imagem simples (em resumo, descritor de imagem) D e definido como uma tupla (hdesc , εD , δD ), onde:

hdesc ∈ H, onde H e o conjunto de identificadores universais unicos (labels);

εD : {I} →n e uma funcao que extrai um vetor de caracterısticas ~f v I de uma imagem I .δD :n ×n → e uma funcao de similaridade (por ex., baseada na distancia metrica) que computaa similaridade entre duas imagens como uma funcao da distancia entre os correspondentesvetores de caracterısticas.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 37 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Um descritor de imagem composto D e uma tupla (hdesc ,D, δD), onde:

hdesc ∈ H, onde H e um conjunto dos identificadores universais unicos (labels);

D = {D1, D2, . . . , Dk} e um conjunto de k descritores de imagens simples pre-definidos.

δD e a funcao de similaridade que combina o valor de similaridade obtido de cada descritor Di ∈ D, i = 1, 2, . . . , k.

Uma descricao de conteudo de imagem ICD e uma tupla (FV , STFVs , StructuredFVs ), onde

FV = { ~fv1,~fv2, . . . ,

~fvk} e um conjunto de vetores de caracterısticas;

STFVs = {stfv1, stfv2, . . . , stfvm} e um conjunto de structural metadata specifications;

StructuredFVs = {strfv1, strfv2, . . . , strfvm} e um conjunto de funcoes StructuredFeatureVector definidas a partir dos vetores decaracterısticas no conjunto FV (o primeiro componente) da descricao de conteudo de imagem e das estruturas do conjunto STFVs (osegundo componente).

Um objeto digital imagem ido e um objeto digital = (h, SM, ST , StrStreams, ICD, StrICDStreams),onde:

1 h ∈ H, onde H e um conjunto de identificadores universais unicos (labels);2 SMsd = {smsd [i, j]} ∈ SM, onde smsd [i, j] =〈ai , . . . , aj 〉, 0 ≤ i ≤ j ≤ n. smsd [i, j] refere-se a substreams (regioes) de uma imagem stream.

3 ST = {st1, st2, . . . , stm} e um conjunto de structural metadata specifications;4 StrStreams = {stD1, stD2, . . . , stDm} e um conjunto de funcoes StructuredStream definidas de substreams da imagem no

conjunto SM (o segundo componente) do objeto digital e das estruturas do conjunto ST (o terceiro componente).5 ICD e uma descricao do conteudo da imagem.6 StrICDStreams = {stimgD1, stimgD2, . . . , stimgDm} e um conjunto de funcoes StructuredStream definidas a partir da stream de

imagem no conjunto SM (o segundo componente) do objeto digital de imagem e das estruturas do conjunto STFVs ∈ ICD(2).

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 38 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Uma colecao de imagens ImgC e uma tupla (C , Simgdesc ,FVimgdesc ), onde C e uma colecao,Simgdesc e um conjunto de descritores de imagem, e FVdesc e uma funcaoFVdesc : {C × Simgdesc} → ICD(1), onde ICD e ido(5) e ido ∈ C .

A funcao FVdesc define como um vetor de caracterısticas foi obtido, dado um objeto digitalde imagem ido ∈ C e um descritor de imagem D ∈ Simgdesc .

Seja Simgdesc um conjunto de descritores de imagem com k identificadores em H. Umcatalogo de metadados de descritores de imagem DMSimgdesc

para Simgdesc e um conjunto

de pares {(h, {dmdesc1, . . . , dmdesckh})}, onde h ∈ H e dmdesci sao Descriptive

metadata specifications para descritores de imagem.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 39 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIR

Exemplo: busca de imagem por conteudo da imagem 01 ancylostoma.jpg : vetor decaracterısticas, e medidas de distancia para outras imagens da colecao.

<?xml version="1.0" encoding="UTF8"?><image>01_ancylostoma.jpg

<image_name>01_ancylostoma.jpg</image_name><image_path>/home/nadiapk/data/uploads/01_ancylostoma.jpg</image_path><image_feature_vector_name>/data/fv/01_ancylostoma.txt

</image_feature_vector_name><image_descriptor>Bic <image_name>01_ancylostoma.jpg<image_dist_value>0

</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80 </image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85 </image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88 </image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88 </image_dist_value></image_name>

</image_descriptor> </image></image>

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 40 / 82

Formalizacao de CO e CBIR

Formalizacao de CO e CBIRO objeto complexo de imagem (ICO) tem a estrutura ico = (h, SCDO = DO ∪ SM, S), onde:

h1 e um identificador unico;

DO = {do1, do21...do2k, do31, ...do3k}, onde do1 e uma imagem, k e o numero de descritores, do21...do2k e um conjunto de objetosdigitais do tipo StructuredFeatureVector, e do31...do3k e um conjunto de StructuredFeatureVectors (com as medidas de distancia);

SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

S e a estrutura que identifica como do1, do21...do2k, e do31, ...do3k estao agregados.

Na ferramenta SuperIDR, cada ICO tem a estrutura ico = (h, SCDO = DO ∪ SM, S), onde:

h1 e um identificador unico que identifica ico;

DO = {do1, do21, do31}, onde do1 e uma imagem de parasita, k = 1 (descritor BIC), do21 e um objeto digital do tipoStructuredFeatureVector, e do31 e um StructuredFeatureVector;

SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

S e uma estrutura XML que identifica como do1, do2, and do3 estao agregados.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 41 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 42 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Analisando as Tecnologias de CO da Perspectiva doArcabouco 5SPONTOS CHAVE

Por que o 5S?

Por que DCC, Buckets e OAI-ORE?

Por que os conceitos de identidade, os componentes, aestrutura e a delimitacao do objeto?

A estrutura dos componentes e sempre a mesma (por ex.: 5S,DCC)?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 43 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Conceitos Manipulados

Manipulam uma quantidade grande de conceitos:

O DCC foca em:

uma identidade unica;uma delimitacao persistente do objeto, definindo o que e parte dele ou nao;a concessao da composicao diversificada dos componentes; ea composicao de COs, criando hierarquias e camadas.

Buckets, em contrapartida, requer:

handles,componentes (chamados de packages),elementos,metodos de acesso econtainers.

Finalmente, a arquitetura do OAI-ORE essencialmente consiste de:

identificadores;recursos;protocolo padrao, como o HTTP, para o acesso ao dado;links atraves da referencia URI; enamed graphs para encapsular a informacao em um objeto composto.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 44 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

DCC

Um CO no DCC pode ser descrito como um elementocdo = (h,SCDO = DO ∪ SM,S), onde:

1 h ∈ H, e H e um conjunto de identificadores unicos (URIs e URIs relativas);

2 DO = {do1, do2, . . . , don}, onde doi e um DCC;

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e uma estrutura XML que compoe o objeto complexo cdo em suas partespresentes em SCDO.

Societies: atraves dos diferentes DCCs, software, regras de acesso e papeis;

Scenario: funcoes disponıveis na interface do DCC;

Structures: XML organiza os componentes no DCC;

Streams: os diferentes tipos de multimıdia manipulados;

Space: vocabulario para descricao do conteudo, estrutura, interface, metadados, versoes,funcionalidade, e aplicabilidade;

→ Nao necessariamente uma estrutura no 5S representa a mesma estrutura no DCC.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 45 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Buckets

Um objeto complexo em Buckets pode ser representado por um elementocdo = (h,SCDO = DO ∪ SM,S), onde:

1 h ∈ H, onde H e um conjunto de identificadores unicos;

2 DO = {do1, do2, . . . , don}, onde doi e um elemento, um package ou umbucket;

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e uma estrutura de diretorio Unix.

Societies: os diferentes grupos que acessam packages, elementos ou buckets;

Scenario: funcoes disponıveis para a manipulacao do bucket;

Structures: a estrutura dos elementos em buckets, e packages;

Streams: os diferentes tipos de multimıdia manipulados;

Space: vocabulario usado como metadado do bucket, informacoes do package, informacoes doselementos, termos utilizados no bucket e restricoes

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 46 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

OAI-ORE

Um objeto complexo em OAI-ORE pode ser representado por um elementocdo = (h,SCDO = DO ∪ SM,S), onde:

1 h ∈ H, where H e um conjunto de identificadores unicos (URIs);

2 DO = {do1, do2, . . . , don}, onde doi e um recurso;

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e um resource map presente no OAI-ORE que compoe o objeto complexocdo a partir de suas partes em SCDO.

Societies: comunidades que realizam troca e intercambio de recursos;

Scenario: processos de autores, deposito, troca, visualizacao, reuso e preservacao de agregacoes.

Structures: RDF/XML e RDFa;

Streams: os diferentes tipos de multimıdia manipulados;

Space: tipos de links entre recursos, propriedades dos recursos (como tipo semantico, tipo de mıdia, eformato).

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 47 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Conceitos Basicos de CO da Perspectiva de DCC, Buckets,e OAI-ORE.

Descricao DCC Buckets OAI-ORE

Identificador URI Handle URI

unico

Componentes DCC Passivo e Diretorios Unix Resource map,

internos de Processo agregacoes

A Composicao Partes acessadas atraves Packages e Buckets Resource map e

do CO da URI relativa, DCCs agregados agregacoes

O que pode ser Metadados, conteudo, Metadados, conteudo Metadados

encapsulado? processos

Utilizacao Encapsulamento de Construcao de Container Reuso de objetos,

conteudo independente do intercambio

repositorio

Formato Conteudo, estrutura, RFC-1807, Mapeamento atraves

interface e metadados Diretorios Unix doresource map, URIs,

agregacao

Implementacao Arquivo Jar, extensıvel Acesso atraves do Mapeamento de recursos

para outras linguagens Author e Management atraves do resource map

Tool

Vantagens Ontologia, interface, Ponteiros para package Intercambio de repositorios,

encapsula software remotos, redes ou utilizado como padrao entre

base de dados, log sistemas distintos

Administracao de Encapsula conteudo Como um arquivo Como um arquivo

software? e software normal normal

Principal uso Encapsula conteudo Objetos de Repositorios Para descrever objetos

na literatura em aplicacoes e web ativos e agregacoes

Preservacao Encapsula conteudo Diretorios podem ser A descricao facilita o

executavel e nao executavel, zipados para backup ou trasporte e reuso

estrutura, metadados, transporte

e permite reuso

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 48 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Caso de Estudo: Integrando uma DL de ImpressoesDigitais

N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence throughintegration of very large digital libraries. VLDL-(ECDL2010), 2010.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 49 / 82

Analisando as Tecnologias de CO da Perspectiva do 5S

Caso de Estudo: Integrando uma DL de ImpressoesDigitais

Temos CO1= (h,SCDO = DO ∪ SM,S), onde:

1 h e um identificador unico que representa CO1, e h ∈ H, onde H eum conjunto de identificadores unicos universais (labels);

2 DO = {A.1,B.1,C .1 e D.1};

3 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

4 S e uma estrutura XML que compoe o objeto complexo cdo em suaspartes em SCDO.

Society: agencias de justica criminal, os academicos, os estudantes epesquisadores.

Structures: organizacao da informacao referentes a um mesmoindivıduo.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 50 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 51 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Uma Infraestrutura baseada em DCC-OAI para ObjetosComplexos de ImagemPONTOS CHAVE

Qual a inovacao?

Vantagens?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 52 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Arquitetura de uma biblioteca digital baseada em COs.

SERVIÇOS

Texto, Áudio, Vídeo, Imagem,

etc.

Artigo, Vídeo,Documento, Livro,

Software, etc.

XML, MP3, DOC, EXE,

PDF, etc.

Tipo de Mídia FormatoTipo SemânticoAnotação,Links, etc.

Outros

OBJETOS COMPLEXOS

...

PR

OC

ESS

AM

EN

TO

APLICAÇÕES DE BIBLIOTECAS DIGITAIS

ENC

APS

ULA

ME

NTO

PU

BLIC

AÇÃ

O

NAV

EG

ÃO

BU

SCA

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 53 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Utilizando DCCs para ICOs

ImageDCC:(a) conteudo: a imagem 06 Ancylostoma.jpg;

(b) estrutura: a estrutura delimitando a imagem;

(c) interface: a interface do ImageDCC com a operacao GetImage;

(d) metadados: descricao sobre a imagem cujo nome e 06 Ancylostoma.

O ImageCODCC:(a) conteudo: o ImageDCC (outro DCC) encapsulando a imagem 06 Ancylostoma.jpg, o vetor de caracterısticas, e as medidas de distancia;

(b) estrutura: a estrutura relaciona a imagem, o vetor de caracterıstica, e a medidas de distancia em um arquivo XML;

(c) interface: operacoes para acessar o vetor de caracterısticas, as medidas de distancia e o ImageDCC;

(d) metadados: descricao sobre o processo CBIR.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 54 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

A estrutura do ImageCODCC e o DescriptorDCC

<?xml version="1.0" encoding="UTF8"?><image>01_ancylostoma.jpg

<image_name>01_ancylostoma.jpg</image_name><image_path>/home/nadiapk/data/uploads/01_ancylostoma.jpg</image_path><image_feature_vector_name>/data/fv/01_ancylostoma.txt

</image_feature_vector_name><image_descriptor>Bic <image_name>01_ancylostoma.jpg<image_dist_value>0

</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80 </image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85 </image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88 </image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88 </image_dist_value></image_name>

</image_descriptor> </image></image>

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 55 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

A Infraestrutura para Busca de Imagens por Conteudo

DescriptorLibraryDCC

CBIRProcessDCC ManagerDCC

DescriptorDCC ExtractionDCC

DistanceDCC

DCCs de Processo DCCs Passivos

ImageDCC

RetrievalDCC

ImageCODCC

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 56 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

A Publicacao de Objetos Complexos

alem dos metadados textuais, tambem estao disponıveis os metadados visuais.

2 verbos adicionais foram implementados:1 ListFeatureVectors: lista de vetores de caracterısticas para todas as imagens disponıveis2 GetFeatureVector: vetores de caracterısticas.

MetadadosVisuais

...

Coleção de ICOs

Descritor

MetadadosTextuais

...

Biblioteca de Descritores

Extração

DistânciaDescriptor

Extraction

Distance

MetadadosTextuais

ImagemMetadadosTextuais

ICOMetadadosTextuais

MetadadosVisuais

ImagemMetadadosTextuais

ICOMetadadosTextuais

Descritor

Extração

Distância

MetadadosTextuais

MetadadosTextuais

MetadadosTextuais

MetadadosTextuais

MetadadosTextuais

<OAI-PMH xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"><responseDate>2010-12-27T20:49:56Z</responseDate><request verb="ListFeatureVectors" metadataPrefix="zip">http://localhost:8180/oai/provider</request>−<ListFeatureVectors>−<header><feature_vector::ImageName>Ancylostoma_caninum.jpg<\feature_vector::ImageName><feature_vector::DescriptorName>ContourMSFractalDimension<\feature_vector::DescriptorName><feature_vector::X> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>1.000999999999999<\feature_vector::value> <feature_vector::value>3.950999999999999<\feature_vector::value> (…) <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value> <feature_vector::value>0.950999999999999<\feature_vector::value><\feature_vector::X></header></ListFeatureVectors></OAI-PMH></OAI-PMH>

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 57 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Estudo de caso - SuperIDR

imagens de parasitas da Biologia;

descritor Border/Interior pixel Classification (BIC);

publicacao com o software jOAI2;

A implementacao do prototipo foi realizada em cinco fases:a “descoberta” e definicao de cada parte do CO;a identificacao das partes do CO;o processo de CBIR;o encapsulamento do imagem e metadados;a publicacao do CO.

2http://www.dlese.org/dds/services/joai software.jspNadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 58 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Estudo de caso - SuperIDR - SpeciesDCC.

<?xml version="1.0" encoding="UTF8"?><species>Ancylostoma caninum <species_family>Ancylostomotidae</species_name> <species_genus> Ancylostoma</species_genus> <species_class> Nematoda</species_class> <image>01_ancylostoma.jpg

<image_name>01_ancylostoma.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/01_ancylostoma.txt</image_feature_vector_name><image_descriptor>Bic

<image_name>01_ancylostoma.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>13_clonorchis.jpg<image_dist_value>80</image_dist_value></image_name> <image_name>25_echinoc_granul_5x.jpg<image_dist_value>85</image_dist_value></image_name> <image_name>09_cerccarat.jpg<image_dist_value>88</image_dist_value></image_name> <image_name>16_Paramphystomidae.jpg<image_dist_value>88</image_dist_value></image_name>

</image_descriptor> </image> <image>06_ancylostoma.jpg

<image_name>06_ancylostoma.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/06_ancylostoma.txt</image_feature_vector_name><image_descriptor>Bic

<image_name>06_ancylostoma.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>26_taeniasoliumescol2_5xpp.jpg<image_dist_value>34</image_dist_value></image_name> <image_name>07_cecariaparyphostomum.jpg<image_dist_value>35</image_dist_value></image_name> <image_name>04a_NECATOR10X.jpg<image_dist_value>41</image_dist_value></image_name> <image_name>12_furcocerc.jpg<image_dist_value>41</image_dist_value></image_name>

</image_descriptor> </image></species>

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 59 / 82

Uma Infraestrutura baseada em DCC-OAI para ICOs

Benefıcios da Infraestrutura

o gerenciamento uniforme da colecao de imagens, metadados, edescritores;

a disponibilidade de integracao de CBIR em outros domınios;

as aplicacoes podem manipular diretamente os DCCs, sem sepreocupar com detalhes;

a flexibilidade para combinar componentes e servicos;

o intercambio e disponibilidade de informacoes;

a publicacao de imagens, ICOs, e descritores, com metadados visuaise textuais; e

a centralizacao do processamento, encapsulamento, publicacao ecoleta de ICOs em somente uma infraestrutura.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 60 / 82

Cenarios de Aplicacao de nossa Infraestrutura

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 61 / 82

Cenarios de Aplicacao de nossa Infraestrutura

Cenarios de Aplicacao de nossa InfraestruturaPONTOS CHAVE

Como e feito o reuso?

Foi realizado um teste com usuarios ou de performance?

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 62 / 82

Cenarios de Aplicacao de nossa Infraestrutura

A Integracao de Bibliotecas Digitais de Impressoes Digitais

A implementacao do prototipo foi realizada em cinco fases:a “descoberta” e definicao de cada parte do CO;

a identificacao das partes do CO;

o processo de CBIR;

o encapsulamento do imagem e metadados;

a publicacao do CO.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 63 / 82

Cenarios de Aplicacao de nossa Infraestrutura

A Integracao de Bibliotecas Digitais de Impressoes Digitais

Fase 3: O processo CBIR:

descritor Statistical Analysis of Structural Information (SASI);

Resultado da consulta CBIR para a Figura A - parte 11 e Figura B -parte 3:

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 64 / 82

Cenarios de Aplicacao de nossa Infraestrutura

A Integracao de Bibliotecas Digitais de Impressoes Digitais

Fase 4: O encapsulamento utilizando o IndividualDCC.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 65 / 82

Cenarios de Aplicacao de nossa Infraestrutura

A Integracao de Bibliotecas Digitais de Impressoes Digitais

XML para a agregacao do conceito de indivıduo:

<?xml version="1.0" encoding="UTF8"?><individual>Joseph Murch <individual_name>Joseph Murch</individual_name> <individual_age>22</individual_age> <individual_sex> M</individual_sex> <image_DL_indiv>Joseph Murch

<image_DL>Police Prints Digital Library</image_DL> <image> Murch_110050328.jpg <image_name>Murch_110050328.jpg</image_name>

<image_feature_vector_name>/home/nadiapk/data/fv/Murch_110050328.jpg.txt</image_feature_vector_name><image_descriptor>SASI

<image_name> Murch_110050328.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>Fox_110050395.jpg<image_dist_value>0.0033</image_dist_value></image_name> <image_name>Fox_110050350.jpg<image_dist_value>0.0037</image_dist_value></image_name> <image_name>Murch_110050327.jpg<image_dist_value>0.0038</image_dist_value></image_name> <image_name>Fox_110050392.jpg<image_dist_value>0.0039</image_dist_value></image_name>

</image_descriptor><\image></image_DL_indiv> <image_DL_indiv>Joseph Murch

<image_DL>Crime Scene Digital Library</image_DL><image> 524d_4_2.jpg

<image_name>524d_4_2.jpg</image_name><image_feature_vector_name>/home/nadiapk/data/fv/524d_4_2 .txt</image_feature_vector_name><image_descriptor>SASI

<image_name> 524d_4_2.jpg <image_dist_value>0</image_dist_value></image_name> <image_name>524D_10_1.jpg<image_dist_value>0.0045</image_dist_value></image_name> <image_name>524D_22_1.jpg<image_dist_value>0.0059</image_dist_value></image_name> <image_name>524D_25_2.jpg<image_dist_value>0.0060</image_dist_value></image_name> <image_name>524D_4_1.jpg<image_dist_value>0.0082</image_dist_value></image_name>

</image_descriptor> </image> </image_DL_indiv><individual>

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 66 / 82

Cenarios de Aplicacao de nossa Infraestrutura

SuperIDR e Busca Multimodal

baseada em re-rank e rank-aggregation;cada ranking a ser combinado pode ser calculado por um descritor diferente;se duas imagens sao semelhantes, as suas ranked lists devem ser semelhantes tambem;algoritmo de re-ranking: como entrada um conjunto de ranked lists e funcao paracomputar uma matriz de distancia resultante.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 67 / 82

Cenarios de Aplicacao de nossa Infraestrutura

SuperIDR e Busca Multimodal - Estudo de Caso

Busca Visual.

Busca Textual.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 68 / 82

Cenarios de Aplicacao de nossa Infraestrutura

SuperIDR e Busca Multimodal - Estudo de Caso

Busca Multimodal: incorporar a busca textual e a busca multimodal (com os algoritmosde re-rank e rank-aggregation);

Posteriormente, os mesmos COs apresentados na secao 6.3 foram disponibilizados para apublicacao.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 69 / 82

Cenarios de Aplicacao de nossa Infraestrutura

Busca em Estorias de Vıdeo

agrupar quadros de vıdeos com conteudo semelhante;

um julgamento relevante para um frame de vıdeo possa ser aplicado a todos os framessemelhantes.

Figura: Um exemplo de estorias - vıdeo A New Horizon, segment 04.

N. P. Kozievitch, J. Almeida, R. da S. Torres, A. Santanche, N. Leite. Reusing a Compound-Based Infrastructure for Searching Video Stories. IRI-2011.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 70 / 82

Cenarios de Aplicacao de nossa Infraestrutura

Utilizando DCCs para a Busca de Estorias

Figura: A estrutura do CBIRStoryDCC.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 71 / 82

Cenarios de Aplicacao de nossa Infraestrutura

Estudo de Caso

50 vıdeos foram selecionadas randomicamente do Open Video Project3;

a agregacao trataria o conceito das estorias para cada vıdeo:

Se analisarmos as cinco imagens mais semelhantes, na regiao inferior da Figura 4, temos

que:1 as tres primeiras imagens mais semelhantes sao relativas a mesma estoria, do mesmo vıdeo;2 a quarta imagem e relativa a uma estoria no vıdeo Drift Ice as a Geologic Agent, segment 03 ; e3 a quinta imagem e relativa a uma estoria no vıdeo Exotic Terrane, segment 02.

3http://www.open-video.org/Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 72 / 82

Conclusoes e Trabalhos Futuros

Sumario

1 Introducao

2 Trabalhos Relacionados

3 Estudos de Caso Preliminares e AplicacoesSuperimposed Image Description and Retrieval Tool - SuperIDRA integracao de bibliotecas digitais de impressoes digitaisNo-Rau: Biblioteca Digital de Teses e Dissertacoes da Unicamp

4 Formalizacao de CO e CBIR

5 Analisando as Tecnologias de CO da Perspectiva do 5S

6 Uma Infraestrutura baseada em DCC-OAI para ICOs

7 Cenarios de Aplicacao de nossa Infraestrutura

8 Conclusoes e Trabalhos Futuros

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 73 / 82

Conclusoes e Trabalhos Futuros

Conclusoes e Trabalhos FuturosPONTOS CHAVE

Principais conceitos?

Benefıcios e Vantagens?

aspectos teoricos + praticos de COs em DLs = maior suporte paracriacao, manutencao e integracao de sistemas heterogeneos.

formalizacao + tecnologias de CO + aplicacoes;

DCC, Buckets e OAI-ORE;

infraestrutura para suportar o processo de CBIR e ICOs;

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 74 / 82

Conclusoes e Trabalhos Futuros

Conclusoes e Trabalhos Futuros

As principais contribuicoes deste trabalho sao:1 formalizacao de conceitos relacionados a CO, ICOs e CBIR;2 comparacao e analise das tecnologias DCC, Buckets e OAI-ORE;3 proposta e desenvolvimento de um prototipo que prove:

o acesso e gestao homogenea ao processo CBIR, e fontes de dados;a facil integracao do processo CBIR atraves da componentizacao eencapsulamento;a distribuicao e coleta de metadados de ICOs, juntamente com seuscomponentes;o acesso aos componentes individuais e ao CO como entidade unica;a centralizacao do processamento, encapsulamento, publicacao ecoleta do ICO.

4 reuso em buscas multimodais e sumarizacao de vıdeos;5 exemplos e descricao de cenarios;6 exemplo de integracao de dados e processos no SuperIDR e impressoes

digitais.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 75 / 82

Conclusoes e Trabalhos Futuros

Conclusoes e Trabalhos Futuros

Trabalhos futuros, tanto do ponto de vista teorico quanto deimplementacao:

formalizacao de aspectos como qualidade de dados, granularidade, persistencia, versoes;utilizacao do OAI-ORE;utilizacao de outros descritores, alem da composicao dos mesmos;uso da aplicacao em outros domınios;uso da aplicacao com outras mıdias.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 76 / 82

Conclusoes e Trabalhos Futuros

Contribuicoes

Aplicações

Formalismo

Cos eTecnologias

JCDL2009

VLDL2010

JIDM2011

IJDL2011I3 Journal2011

Artigos SubmetidosArtigos Aceitos

VTGIS2010

IRI2011

ICADL2010

ECDL2010CESCA42010

CESCA32010

CESCA22010

CESCA12010

Relatórios

TR-10-05

IC-09-23

IC-10-32IC-11-01

Geoinfo2010Ipes2010

Wipte2010

SBBD2008

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 77 / 82

Conclusoes e Trabalhos Futuros

Referencias

N. P. Kozievitch. Complex objects in digital libraries. In JCDL 09, Doctoral Consortium, 2009.

U. Murthy, N. P. Kozievitch, E. A. Fox, R. da S. Torres, and E. Hallerman. SuperIDR: A tablet PC tool for Image Description and Retrieval,

Wipte, 2010.

N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Rethinking Fingerprint evidence

through integration of very large digital libraries. VLDL Workshop ECDL2010, 2010.

N. P. Kozievitch, J. Almeida, R. da S. Torres, A. Santanche, and N. Leite. Reusing a Compound-Based Infrastructure for Searching Video

Stories. In 12th IRI- 2011.

N. P. Kozievitch and R. da S. Torres. Describing oai-ore from the 5s framework perspective. ICADL10, 2010.

N. P. Kozievitch, R. da S. Torres, F. Andrade, U. Murthy, E. Fox, and E. Hallerman. A teaching tool for parasitology: enhancing learning with

annotation and image retrieval. ECDL10, 2010.

N. P. Kozievitch, R. da S. Torres, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Database for Fingerprint experiments.

Poster for CESCA, 2010.

N. P. Kozievitch, T. R. C. Falcao, and R. da S. Torres. A .Net Implementation of a Content-Based Image Search Component. SBBD, 2008.

N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, and E.

Hallerman. A Geographic Annotation Service in SuperIDR. VT-GIS, 2010.

N. P. Kozievitch, R. da S. Torres, T. Falcao, E. Ramos, F. Andrade, S. M. Allegretti, M. T. Ueta, R. R. Madi, U. Murthy, E. A. Fox, Y. Chen,

and E. Hallerman. Evaluation of a Tablet PC image annotation and retrieval tool in the parasitology domain. Technical Report IC-09-23, 2009.

U. Murthy, N. P. Kozievitch, J. Leidig, R. da S. Torres, S. Yang, M. Goncalves, L. Delcambre, D. Archer, and E. A. Fox. Extending the 5s

framework of digital libraries to support complex objects, superimposed information, and content-based image retrieval services. Technical

Report TR-10-05, 2010.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 78 / 82

Conclusoes e Trabalhos Futuros

Referencias

N. P. Kozievitch, S. Codio, J. A. Francois, E. Fox, and R. da S. Torres. Exploring CBIR concepts in the CTRnet Project. Technical Report

IC-10-32, 2010.

N. P. Kozievitch, E. Fox, and R. da S. Torres. Analyzing Compound Object Technologies from the 5S Perspective. Technical Report IC-11-01,

2011.

F. B. Gil, N. P. Kozievitch, and R. da S. Torres. A geographic annotation service for biodiversity systems. In Proceedings of XV GeoInfo, 2010.

S. H. Park, N. P. Kozievitch, E. A. Fox, N. Short, A. L. Abbott, S. Misra, and M. Hsiao. Model-based Fingerprint image quality analysis. Poster

for CESCA, 2010.

S. Misra, N. Short, A. L. Abbott, M. Hsiao, N. P. Kozievitch, and E. A. Fox. Fingerprint sufficiency. Poster for CESCA, 2010.

N. Short, S. Misra, A. L. Abbott, M. Hsiao, N. P. Kozievitch, and E. A. Fox. Latent Fingerprint matching. Poster for CESCA, 2010.

S. Yang, V. Srinivasan, N. P. Kozievitch, L. T. Li, R. da Silva Torres, T. Whalen, A. Kavanaugh, S. D. Sheetz, D. Shoemaker, and E. A. Fox.

CTRnet DL for Disaster Information Services. In JCDL 11, 2011.

M. Hsiao, N. P. Kozievitch, S. H. Park, E. A. Fox, N. Short, A. L. Abbott, S. Misra, R. Murch, and B. Budowle. Toward a quantitative basis for

sufficiency of friction ridge pattern detail. Impression Pattern Evidence Symposium, 2010.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 79 / 82

Conclusoes e Trabalhos Futuros

Perguntas????

Perguntas??

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 80 / 82

Conclusoes e Trabalhos Futuros

Metodologia

Figura: Visao geral da metodologia empregada nesta tese.

N. P. Kozievitch. Complex objects in digital libraries. In JCDL 09: Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries, Doctoral

Consortium, 2009.

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 81 / 82

Conclusoes e Trabalhos Futuros

Formalizacao de CO e CBIR

Um objeto digital e uma tupla do = (h,SM,ST , StructuredStreams), onde:

1 h ∈ H, onde H e um conjunto de identificadores universais unicos (labels);

2 SM = {sm1, sm2, . . . , smn} e um conjunto de streams;

3 ST = {st1, st2, . . . , stm} e um conjunto de Structural Metadata Specifications;

4 StructuredStreams = {stsm1, stsm2, . . . , stsmp} e um conjunto de funcoes de StructuredStreamdefinidas a partir de streams no conjunto SM do objeto digital e de estruturas no conjunto ST .

Nesta definicao:

Streams sao sequencias de elementos de um tipo arbitrario (como bits, characters, imagens, etc.).

Structural Metadata Specifications sao relacoes entre o objeto e suas partes (como os capıtulos de um livro).

Structured Streams definem o mapeamento de uma estrutura para streams (como capıtulos, secoes, introducao, etc.sao organizados para definir um livro).

Nadia Puchalski Kozievitch (Unicamp) Objetos Complexos em Bibliotecas Digitais: Analisando o Gerenciamento de Componentes de Imagens15 de junho de 2011 82 / 82