paulo roberto [email protected] recuperação de informação multimídia
TRANSCRIPT
Paulo [email protected]
Recuperação de Informação Multimídia
Roteiro Motivação Recuperação de informação textual Recuperação de informação multimídia Conclusões Referências
Motivação
Crescimento das coleções de textos digitais(bibliotecas digitais, Internet, Intranets, ...)
Tempo de busca longo / baixa precisão
Novas técnicas de recuperação de informações (IR)
+
Etapas da Recuperação de Informações (IR)
Coleta daInformaçãodisponível
Seleção daInformaçãodesejada
Apresentaçãoao Usuário
Paradigmas de IR
Processos Fonte daInformação
Filtragem daInformação
Sim Estável
Busca daInformação
Não Dinâmica
Data Mining Não Estável
Acesso à BD Não Estável
Perfil do Usuário
Busca de Informação na Web:
Como localizar a informação relevante? Como modelar o interesse de um usuário
particular?
Aprox. 577.032 docs!!!
Medidas de Eficácia para Busca e FiltragemRecall: total de documentos relevantes retornados
dividido pelo número total dos relevantes.
Precisão: documentos relevantes retornados dividido pelo número total de retornados
Todos os Documentos
Documentos Relevantes
Documentos Retornados
Relevantes Retornados
Por que Agentes + IR?
IR se encaixa no modelo de agentes; Necessidade de acesso a múltiplas
fontes de informação; Necessidade de distribuição
Agentes de Busca
Exemplos: Radix, AltaVista, Lycos, Excite, ...
BrowserConsulta
Resposta
Servidor de Consultas Base de
Índices
Search EngineUsuário
Busca
WebWeb)--(
Robô
Indexing Engine
Agentes que Filtram Informação
Browser
Agente de Filtragem
InternetInternet
Servidor de News
Indexing Engine
Base deÍndices
Perfil dousuário
ex.: Metacrawler, NewsHound, etc.
Montando a Base de Índices Dado um documento, identificar os conceitos que
descrevem o seu conteúdo e quão bem eles o descrevem.
Pesos das Palavras como indicação de relevância:– Frequência relativa da palavra no texto (TFIDF)– Frequência da palavra em relação a outros documentos do
conjunto que está sendo indexado.– Colocação da palavra na estrutura do documento (título, início,
negrito,...)
Palavras com maiores pesos são selecionadas, formando um vetor de representação.
Exemplo de Representação
Brincadeira
O rato roeu a roupado rei de Roma.
brincadeira, t, m, n, irato, 1roeu, 1roupa, 1rei, 2roma, 2, m
brincadeira, 90rato, 70roeu, 70roupa, 70rei, 60roma, 65
brincadeira, 90rato, 70roeu, 70roupa, 70roma, 65rei, 60
RepresentaçãoVetorial doDocumento
Estrutura de Arquivos p/ IR(Montando a Base de Índices)
Arquivos de índices invertidos
Bem-vindo!
UFPE
http://www.ufpe.br
URL: http://www.ufpe.br
ID: 455227
Words: 543, 987
Arquivo Direto
WORD: Bem-vindo
ID: 543
URLs: 455227,...
WORD: UFPE
ID: 987
URLs: 455227,...
Arquivo Invertido
Indexação
Selecionar palavras da página HTML– Converter uma cadeia de caracteres em uma
cadeia de palavras/tokens. (/, -, 0-9,...) Stop-list
– Palavras sem conteúdo semântico são retiradas da indexação
Montar o centróide da página– Palavras-chave que mais aparecem na página
Indexação Indexação Distribuída, Base compartilhada
– Divisão por: Localização Geográfica, Rede, Conteúdo,..
Stemming– Armazenar apenas o radical da palavra,
permitindo variações morfológicas dos termos durante o casamento
engineeringengineeredengineer
engineerengineerengineer
Term Stem
Estratégias de Busca Ontologias
para aumentar precisão e recall.
Stemming String searching
– String matching exato e aproximado (N-Grams) Expansão do vocabulário
– a informação buscada pode ser expressada por diferentes palavras
– utiliza um dicionário de sinônimos
Futebol
Campeonato Brasileiro
Palmeiras
CBF
Extração de Informação Extrai dados relevantes (para um determinado
objetivo) a partir de documentos digitais. Etapas:
– reconhecimento do trecho de informação;– extração da informação.
Exemplo (projeto de mestrado de Carla):
BD (CNCT):
Autor: .... Ano: ....
Título: .... Local: ....
Agentes para IR Transformar o grande número de fontes de
informação em rede de agentes de informação. Organização:
– Estruturação dos agentes.
Conhecimento:– Ontologia ou modelo do seu domínio específico.– Modelo das fontes de informação.
Comunicação:– Protocolo de comunicação comum entre os agentes.
Aprendizado:– Melhorar a exatidão e performance com o tempo.– Lidar com as mudanças do ambiente
Rede de Agentes
WeatherAgent
Logist.Agent
Geograf.Agent
GeoPol.AgentTransp.
AgentMap
Agent
LandAgent Sea
Agent
AirAgent
PortAgent Airport
Repository
HarborAgent
NavalAgent
AtranticRepository
PacificRepository
EuropeanRepository
IR-Multimídia
Motivação:– Existência de grandes volumes de textos, gráficos,
narrações, sons e vídeos “acessíveis” em bases de dados distribuídas
Aplicações:– Diagnósticos médicos (Medical Image Databases)– Reconhecimento de padrões (faces, impressões
digitais, assinaturas, riffs e melodias musicais, etc.)– Pesquisa multimídia
Convergência Digital
Recuperação de Informações Multimídia Recuperação baseada em conteúdo Mas como indexar áudio/vídeo? Problemas...
– Descrevendo imagens/sons através de palavras (cada pessoa conta o filme de uma maneira diferente...)
– Extraindo informações de uma amostra de áudio...
Estado da Arte
Computação Musical, processamento de som, localização frequência-tempo– Narrações: busca direcionada por voz.
Dificuldade de tornar-se independente do usuário
– Música: busca baseada em valores (timbre, altura, duração, etc.)
Estado da Arte visão computacional, reconhecimento de
padrões e processamento de imagem– Fotos: busca baseada em características.
Limitações na tecnologia restringem a busca a domínios específicos
– Vídeo: sofre dos mesmos problemas das fotos. Compara quadros adjacentes com mudanças estruturais quadro-a-quadro. Parâmetros de movimento de câmera (zoom, fading, etc.)
Recuperando Áudio
Categorias de recuperação:– por um trecho específico– por atributos acústicos mensuráveis– por propriedades subjetivas do som
Indexando formas de onda vs.
Indexando arquivos MIDI
Recuperação de Informação Musical Baseada em Conteúdo Uso da tecnologia MIDI facilita o
tratamento... MIDI: nota, instrumento, altura, etc
Recuperando Vídeo
Parsing
Extração do conteúdo e indexação
Recuperaçãoe browsing
Categorias de Recuperação de Vídeo High-level
– Utiliza um conjunto de termos de indexação predefinidos para anotação de vídeo.
– Os termos são organizados em categorias ontológicas de alto nível como ação, tempo, espaço, etc.
– Desenvolveu-se a partir da perspectiva de indexação manual
– É indicada para lidar com pequenas quantidades de vídeos novos e para acessar bases de dados anotadas previamente
Categorias de Recuperaçãode Vídeo Low-level
– Provê acesso a vídeo baseado em propriedades como cor, textura, formas, etc.
– Consiste em extrair características dos dados de vídeo, organizar essas características baseado em alguma distância métrica e usar casamento por similaridade para recuperar o vídeo
– Indexação automática– Principal limitação: ausência de semântica
associada às características
Categorias de Recuperaçãode Vídeo Domínio específico
– Combina as duas anteriores: high-level para restringir a extração e o processamento low-level
– É efetiva no domínio da aplicação– Ex.: parsing e recuperação de vídeos de notícias– Limitação: estreito domínio de aplicabilidade
Técnicas de Indexação de Vídeo
Transformada de Fourier– Processamento de padrões presentes em
imagens
Descritores de Fourier– identificação dos contornos de figuras
geométricas primitivas em imagens– ex: Applet
Técnicas de Indexação (A/V) Wavelets
– ondas pequenas com determinadas propriedades que as tornam adequadas a servirem de base para decomposição de outras funções, assim como senos e cossenos servem de base para decomposições de Fourier.
– Ferramenta matemática para analisar, processar e sintetizar imagens e sinais onde o método de Fourier não obtém performance aceitável
– Aplicações: waveform matching, segmentação de sinais e time-frequency localization
– São adaptáveis para a aplicação em questão
Query Based in Content (QBIC)
Ferramenta de busca, IBM Realiza consultas em grandes bases de dados
de imagens baseadas no conteúdo visual dos dados
Consultas podem ser feitas através de exemplos– “Mostre-me imagens parecidas com esta”
Ou por descrições das propriedades– “Dê-me imagens que contenham muito vermelho”
Trademark Server
Permite navegação e busca de padrões de marcas registradas.
O sistema combina o IBM's DB2 Universal Database para consultar os campos numéricos e textuais e o QBIC(tm) para a consulta das figuras
Versão demo...
Considerações Finais
Repositórios multimídia precisam mais do que armazenagem e acesso em rede– indexação
Extração automática completa ainda é impossível– interface
Mantra para desenvolvimento: “Overview first, zoom and filter, then details on demand”
Shneiderman
Referências - Papers
Bibliography os Papers on Multimedia Retrieval. Seminários sobre Recuperação de Informação. Paulo
Oliva e Mariana Neves Representação e Recuperação Baseada em Conteúdo
de Partituras Musicais em Bases de Dados Orientadas a Objetos. Figueiredo, M.B. Traina, C. Traina, ª
Busca e Recuperação de Informação Musical. Miccolis, A. V Simpósio Brasileiro de Computação e Música, UFRJ
Image and Sound Digital Libraries Need More Than Storage and Networked Access. Aigrain, P. ISDL’95
Referências - Links
QBIC Homepage. http://wwwqbic.almaden.ibm.com/ Trademark Server.
http://wwwqbic.almaden.ibm.com/tmdemo/ Wavelets at LSI. http://www.lsi.usp.br/~regis/wlets.html Computer-Assisted Perception: A Framework for
Multimedia Interaction with Existing Media http://www.irit.fr/ACTIVITES/EQ_AMI/AIGRAIN/manifest.html
Fourier Descriptors. http://www.cim.mcgill.ca/~adq/fourdescrip/FD.html