recuperação de informações por Álgebra linear computacional · dificuldades com ir...

13
Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo Jos ´ e da Silva e Silva Departamento de Ci ˆ encia da Computac ¸ ˜ ao - IME - USP Apoio Financeiro: CNPq MAC499 - Novembro de 2004 – p.1/13

Upload: others

Post on 25-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Recuperação de Informações porÁlgebra Linear ComputacionalMAC499 - Projeto de Iniciação Científica

Aluna: Ellen Hidemi Fukuda

Orientador: Paulo Jose da Silva e Silva

Departamento de Ciencia da Computacao - IME - USP

Apoio Financeiro: CNPq

MAC499 - Novembro de 2004 – p.1/13

Page 2: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

A Iniciação Científica

Estudo de técnicas de Recuperação deInformações associadas ao modelo vetorial.

Utilização de ferramentas da Álgebra LinearComputacional, em especial, aDecomposição por Valores Singulares (SVD)e a Fatoração QR.

MAC499 - Novembro de 2004 – p.2/13

Page 3: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Recuperação deInformações (IR)

Métodos eficazes para representação,armazenamento, organização e acesso àsinformações.

Banco de dados

PesquisaSistema

Termos

Armazenamento

Processamento

Recuperacao

Documentos

Documentos (relevantes?)

Usuario+

MAC499 - Novembro de 2004 – p.3/13

Page 4: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Dificuldades com IRAutomático

Diferentes idiomas.

Vários tipos de informações: texto, figura,áudio, vídeo.

Sinônimos (várias palavras com o mesmosignificado).

Polissemia (palavras com diferentessignificados).

Enorme quantidade de documentos.

Recurso limitado de processamento.

MAC499 - Novembro de 2004 – p.4/13

Page 5: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Modelo Vetorial: Termos eDocumentos

Matriz A de termos × documentos:dj

ti

a11 . . . a1j . . . a1D... . . . ... . . . ...

ai1 . . . aij . . . aiD... . . . ... . . . ...

aT1 . . . aTj . . . aTD

aij = peso do termo ti associado aodocumento dj, 1 ≤ i ≤ T , 1 ≤ j ≤ D.

MAC499 - Novembro de 2004 – p.5/13

Page 6: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Modelo Vetorial: Termos eDocumentos (Cont.)

Definições possíveis para aij: variávelbooleana, freqüência do termo nodocumento, funções envolvendo logaritmos,etc. As colunas da matriz A podem ou nãoser normalizadas.

Se o termo ti não estiver relacionado aodocumento dj, então aij = 0.

Em geral, o número de termos relacionados aum documento é razoavelmente pequeno. Amatriz é, portanto, esparsa.

MAC499 - Novembro de 2004 – p.6/13

Page 7: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Modelo Vetorial:Pesquisas

Cada pesquisa é definida como um vetorq = (q1, ..., qT )T .

Medida de similaridade entre uma pesquisa q

e um documento dj = (a1j, ..., aTj)T :

cos(θj) =dT

j q

‖dj‖2‖q‖2=

∑Ti=1 aijqi

∑Ti=1 a2

ij

∑Ti=1 q2

i

Seja L um limiar definido. Se cos(θj) > L,então dj é um documento relevante para apesquisa q.

MAC499 - Novembro de 2004 – p.7/13

Page 8: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Redução do Posto daMatriz (LSI)

LSI (Latent Semantic Indexing): É baseadono modelo vetorial e utiliza-se da matriz determos × documentos com posto reduzido.

A redução do posto permite remover algumasinformações não-pertinentes.

MAC499 - Novembro de 2004 – p.8/13

Page 9: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Decomposição SVD

Decomposição SVD de A ∈ RT×D:

A = UΣV T ,

onde U ∈ RT×T e V ∈ R

D×D são matrizesortogonais e Σ ∈ R

T×D é uma matriz diagonalcujos elementos são os valores singularesσ1 ≥ σ2 ≥ ... ≥ σmin(T,D).

O posto rA da matriz A é igual ao número devalores singulares não nulos.

MAC499 - Novembro de 2004 – p.9/13

Page 10: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Propriedade do SVD

Se Ak =∑k

i=1 σiuivTi , então Ak é a melhor

aproximação de A de posto k.

Cada eixo da hiperelipse associada à matrizA fornece uma informação proporcional a σi.

Escolher um k apropriado não é simples.Usualmente é definido através deexperimentos.

MAC499 - Novembro de 2004 – p.10/13

Page 11: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Analogia com Compressãode Imagens

k = 3 k = 7 k = 15

k = 40 k = 75 rA = 150MAC499 - Novembro de 2004 – p.11/13

Page 12: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Outros Estudos

Uso da fatoração QR no contexto de IR.

Criação de thesaurus: clustering,comparação entre termos e entredocumentos.

Operações com vetores de pesquisas:expansão da pesquisa.

Gerenciamento de coleções dinâmicas.

MAC499 - Novembro de 2004 – p.12/13

Page 13: Recuperação de Informações por Álgebra Linear Computacional · Dificuldades com IR Automático Diferentes idiomas. Vários tipos de informações: texto, figura, áudio, vídeo

Mais Informações

Página de MAC499:http://www.linux.ime.usp.br/˜hidemi/mac499.

E-mail: ellen at ime.usp.br

MAC499 - Novembro de 2004 – p.13/13