universidad de granadahera.ugr.es/tesisugr/15764552.pdf · figura 6.2. representación gráfica del...

187
UNIVERSIDAD DE GRANADA ESTUDIO Y EVALUACIÓN DE UN SISTEMA INTELIGENTE PARA LA RECUPERACIÓN Y EL FILTRADO DE INFORMACIÓN DE INTERNET TESIS DOCTORAL Juan José Samper Márquez Granada 2005 Departamento de Arquitectura y Tecnología de Computadores

Upload: others

Post on 15-Dec-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo

UNIVERSIDAD DE GRANADA

ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA

INTELIGENTE PARA LA RECUPERACIOacuteN Y EL

FILTRADO DE INFORMACIOacuteN DE INTERNET

TESIS DOCTORAL

Juan Joseacute Samper Maacuterquez

Granada 2005

Departamento de Arquitectura y Tecnologiacutea de Computadores

USER
Editor Editorial de la Universidad de Granada13Autor Juan Joseacute Samper Maacuterquez13DL Gr 1750 - 200513ISBN 84-338-3603-x

UNIVERSIDAD DE GRANADA

ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA

INTELIGENTE PARA LA RECUPERACIOacuteN Y EL

FILTRADO DE INFORMACIOacuteN DE INTERNET

Memoria presentada por

Juan Joseacute Samper Maacuterquez

Para optar al grado de

DOCTOR EN INFORMAacuteTICA

Fdo Juan Joseacute Samper Maacuterquez

D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad

y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del

Departamento de Arquitectura y Tecnologiacutea de la Universidad de

Granada

CERTIFICAN

Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para

la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por

D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el

Departamento de Arquitectura y Tecnologiacutea de Computadores de la

Universidad de Granada para optar al grado de Doctor en Informaacutetica

Granada a 30 de septiembre de 2005

Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso

Director de la Tesis Director de la Tesis

A mi hijo

i

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 2: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
USER
Editor Editorial de la Universidad de Granada13Autor Juan Joseacute Samper Maacuterquez13DL Gr 1750 - 200513ISBN 84-338-3603-x

UNIVERSIDAD DE GRANADA

ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA

INTELIGENTE PARA LA RECUPERACIOacuteN Y EL

FILTRADO DE INFORMACIOacuteN DE INTERNET

Memoria presentada por

Juan Joseacute Samper Maacuterquez

Para optar al grado de

DOCTOR EN INFORMAacuteTICA

Fdo Juan Joseacute Samper Maacuterquez

D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad

y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del

Departamento de Arquitectura y Tecnologiacutea de la Universidad de

Granada

CERTIFICAN

Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para

la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por

D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el

Departamento de Arquitectura y Tecnologiacutea de Computadores de la

Universidad de Granada para optar al grado de Doctor en Informaacutetica

Granada a 30 de septiembre de 2005

Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso

Director de la Tesis Director de la Tesis

A mi hijo

i

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 3: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo

UNIVERSIDAD DE GRANADA

ESTUDIO Y EVALUACIOacuteN DE UN SISTEMA

INTELIGENTE PARA LA RECUPERACIOacuteN Y EL

FILTRADO DE INFORMACIOacuteN DE INTERNET

Memoria presentada por

Juan Joseacute Samper Maacuterquez

Para optar al grado de

DOCTOR EN INFORMAacuteTICA

Fdo Juan Joseacute Samper Maacuterquez

D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad

y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del

Departamento de Arquitectura y Tecnologiacutea de la Universidad de

Granada

CERTIFICAN

Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para

la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por

D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el

Departamento de Arquitectura y Tecnologiacutea de Computadores de la

Universidad de Granada para optar al grado de Doctor en Informaacutetica

Granada a 30 de septiembre de 2005

Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso

Director de la Tesis Director de la Tesis

A mi hijo

i

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 4: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo

D Juan Juliaacuten Merelo Guervoacutes Profesor Titular de Universidad

y D Pedro Aacutengel Castillo Valdivieso Profesor Asociado del

Departamento de Arquitectura y Tecnologiacutea de la Universidad de

Granada

CERTIFICAN

Que la memoria titulada ldquoEstudio y Evaluacioacuten de un Sistema Inteligente para

la Recuperacioacuten y el Filtrado de Informacioacuten de Internetrdquo ha sido realizada por

D Juan Joseacute Samper Maacuterquez bajo nuestra direccioacuten en el

Departamento de Arquitectura y Tecnologiacutea de Computadores de la

Universidad de Granada para optar al grado de Doctor en Informaacutetica

Granada a 30 de septiembre de 2005

Fdo Juan Juliaacuten Merelo Guervoacutes Fdo Pedro Aacutengel Castillo Valdivieso

Director de la Tesis Director de la Tesis

A mi hijo

i

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 5: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo

A mi hijo

i

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 6: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo

ii

Agradecimientos

Mi respeto y agradecimiento profundo a todas las personas que me han

ayudado en alguacuten momento durante la elaboracioacuten de esta Tesis especialmente a mis

Directores de Tesis el profesor JJ Merelo y el profesor Pedro Castillo por su

paciencia y dedicacioacuten

iii

iv

Resumen

En esta tesis se desarrolla un nuevo sistema de recuperacioacuten y filtrado de informacioacuten

denominado NectaRSS que recomienda informacioacuten a un usuario basaacutendose en los

intereses de eacuteste El meacutetodo realiza automaacuteticamente la tarea de adquisicioacuten de las

preferencias del usuario evitando la realimentacioacuten expliacutecita

Se realiza una revisioacuten de todos los conceptos relacionados con el sistema

mostrando diferentes enfoques desde los que la comunidad cientiacutefica ha abordado el

problema con especial incidencia en el contexto de la Web donde se aplicaraacute inicialmente

Por uacuteltimo se comprueba la efectividad del meacutetodo propuesto aplicaacutendolo a la

implementacioacuten de un agregador inteligente utilizado por diversos usuarios heterogeacuteneos

demostraacutendose su capacidad para ofrecer la informacioacuten personalizada seguacuten los intereses

de cada individuo

Abstract

In this thesis a new system called NectaRSS for information retrieval and filtering is

presented The system recommends information to a user based on his past choices The

method automatically accomplishes the task of user preferences acquisition avoiding

explicit feedback

In this work a review of all the concepts related to the system is first performed

showing different approaches to the problem of user profile construction emphasizing

web information retrieval systems where NectaRSS will be initially applied

The efficiency of the proposed method is proved applying it to the implementation

of an intelligent aggregator used by different and heterogeneous users proving its ability to

offer the information personalized according to each individualrsquos interests

v

vi

IacuteNDICE GENERAL

Agradecimientosiii

Resumen v

IacuteNDICE GENERAL vii

IacuteNDICE DE FIGURAS xi

IacuteNDICE DE TABLAS xv

1 INTRODUCCIOacuteN 1

11 Organizacioacuten de la tesis 2

2 LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN 5

21 Introduccioacuten5

22 Modelos para la recuperacioacuten de informacioacuten 6 221 El Modelo Vectorial 7

2211 Realimentacioacuten de la Relevancia 11 2212 Agrupacioacuten o ldquoclusteringrdquo de documentos 12 2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos 13

222 El Modelo Probabiliacutestico 17

23 La Web como sistema de recuperacioacuten de informacioacuten 19 231 Meacutetodos de recuperacioacuten de informacioacuten en la Web 20

2311 Herramientas de buacutesqueda en la Web 22 232 Navegando por la informacioacuten de la Web 26

Navegadores 26 Agregadores de contenidos 27

233 Sistemas de recomendacioacuten 29

24 Resumen 31

3 EVALUACIOacuteN DE LOS SISTEMAS RI 33

31 Relevancia y Pertinencia 33

32 Meacutetodos tradicionales de evaluacioacuten de SRI35 321 Medidas basadas en la relevancia 37 322 Medidas orientadas al usuario 40 323 Caacutelculo de la Exhaustividad y la Precisioacuten 41

vii

IacuteNDICE GENERAL

324 Medidas promedio exhaustividad-precisioacuten43 325 Valores sumarios simples 45

3251 Precisioacuten media al observar documentos relevantes45 3252 La R-Precisioacuten46 3253 Histogramas de Precisioacuten 46

33 Otras medidas alternativas 47 331 Exhaustividad y precisioacuten normalizadas 48 332 Ratio de deslizamiento49 333 Medida de Voiskunskii50

34 Resumen 52

4 PERFILES DE USUARIO 55

41 iquestQueacute es un Perfil 55

42 Meacutetodos de creacioacuten de perfiles 56

43 Meacutetodos de adquisicioacuten de los datos del usuario 57 431 Informacioacuten Expliacutecita57 432 Reglas de Adquisicioacuten58 433 Reconocimiento del Plan59 434 Estereotipos 59 435 Adquisicioacuten de Datos de Utilizacioacuten 60

44 Representacioacuten del Perfil de Usuario 60 441 Razonamiento Deductivo 61

4411 Representacioacuten e Inferencia Loacutegica 61 4412 Representacioacuten y Razonamiento con Incertidumbre61

442 Razonamiento Inductivo Aprendizaje62 443 Razonamiento por Analogiacutea 63

4431 Filtrado Basado en Grupos 63 4432 Agrupacioacuten de Perfiles de Usuario 64

45 Realimentacioacuten del usuario 64

46 Agentes Software y creacioacuten de perfiles 66

47 Modelos Estadiacutesticos 67

48 Razonamiento Basado en Reglas 68

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil de usuario

automaacutetico 68

410 Resumen 70

viii

IacuteNDICE GENERAL

5 NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE CONTENIDOS

BASADO EN PERFILES 73

51 Introduccioacuten73

52 Construccioacuten automaacutetica de un perfil de usuario basado en su historia de

navegacioacuten74 521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten del perfil de usuario

77

53 Caacutelculo de la puntuacioacuten de los titulares79

531 Puntuacioacuten alternativa de los titulares 81

54 Descripcioacuten general del sistema NectaRSS 81 541 Caracteriacutesticas singulares del sistema 82

55 Resumen 83

6 EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO 85

61 Objetivo general del sistema y esquema de su experimentacioacuten 85

62 Metodologiacutea seguida 86

63 Estrategias de experimentacioacuten 88 631 Tratamiento de las palabras 89 632 Descripcioacuten de los experimentos 90

64 Medidas para la evaluacioacuten experimental del sistema 94 641 Tasas formadas por relaciones entre las variables observables 94 642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima 97 643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error 98 644 La Correlacioacuten entre titulares 98 645 La R-Precisioacuten 99

65 Resumen 100

7 RESULTADOS DE LOS EXPERIMENTOS101

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS) 101

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV) 106

73 Experimento 3 Importancia Relativa de los Perfiles (IRP) 109

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2) 110

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)112 751 Comparacioacuten de Tasas 113

ix

IacuteNDICE GENERAL

752 Error Absoluto Medio y Coeficiente de Correlacioacuten 117 753 La R-Precisioacuten 119

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA) 122

77 Resumen 124

8 CONCLUSIONES 127

81 Principales Aportaciones y Conclusiones 128

82 Liacuteneas de investigacioacuten futuras 129

Bibliografiacutea y Referencias131

Anexo I Lenguajes de definicioacuten de documentos AI1

AI1 Hypertext Markup Language AI1 AI12 Evolucioacuten del Lenguaje HTMLAI2

AI2 Extensible Markup LanguageAI3 AI21 Estructura de XMLAI4 AI22 Documentos XML bien-formadosAI5 AI23 Especificaciones XML AI6

AI3 Rich Site Summary AI7 AI31 Historia y Origen de RSSAI7 AI32 RSS 092 AI8 AI33 RSS 20 AI13

AI4 Atom AI15

Anexo II Un Agregador Inteligente AII1

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema AII5

x

IacuteNDICE DE FIGURAS

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002] 8

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989] 9

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo vectorial Fuente [Raymond 2005] 10

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005] 11

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999] 14

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea 23

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom 28

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente httpwwwittckueduobiwan 31

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El color maacutes oscuro indica el subconjunto B de documentos recuperados 37

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen1979] 39

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exahustividad y la precisioacuten seguacuten Salton tomados de la tabla 36 43

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo45

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999] 47

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen1979] 49

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo colaborativo de creacioacuten de perfiles Fuente [Rui 2003] 57

Figura 51 Vista general del sistema NectaRSS propuesto 74

xi

IacuteNDICE DE FIGURAS

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden en que el usuario lo ha elegido 87

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo de vida hl 91

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la seccioacuten 64195

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN 103

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor 104

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol 107

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par (a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media110

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable 111

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios 115

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 115

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios 116

xii

IacuteNDICE DE TABLAS

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo 117

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior a 015 y una Desviacioacuten Estaacutendar media inferior a 005 118

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios 119

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el sistema La media mayor es la del usuario 11 y la menor es la del usuario 8 120

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30 sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una evolucioacuten favorable de la R-Precisioacuten 121

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo 123

Figura AII1 Aspecto principal del programa NectaRSS AII1

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS AII2

Figura AII3 Aspecto del programa NectaRSS en modo experimento AII3

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el programa NectaRSS AII4

xiii

IacuteNDICE DE TABLAS

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente [Dominich 2000] 7

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999] 7

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen1979] 18

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente [Meadow 1993] 35

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993] 36

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993] 36

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979] 38

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979] 38

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos 42

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997] 50

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997] 51

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997] 52

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5 93

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila 97

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares considerados La relacioacuten se establece dividiendo la columna por la fila 102

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30 sesiones experimentales 102

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN destacando el valor de la prueba t -Student para la tasa CD 105

xv

IacuteNDICE DE TABLAS

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido SINfol107

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la prueba t -Student para la tasa CD108

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b109

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en los casos ldquoORDENrdquo y ldquoAZARrdquo113

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo 113

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten entre titulares en la sesioacuten experimental 30 por 15 usuarios 118

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios120

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30 junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo 123

xvi

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS EN LA

PRESENTE MEMORIA

RI Recuperacioacuten de Informacioacuten

SRI Sistema de Recuperacioacuten de Informacioacuten

E-P Par Exhaustividad-Precisioacuten

P Perfil de usuario

Ps Perfil de sesioacuten

Pr Perfil de resumen

T Conjunto de titulares

E(T) Conjunto de titulares elegidos

D(T) Conjunto de titulares destacados

CRS Con Resumen ndash Sin resumen

DIV Determinacioacuten del Intervalo de Vida

IRP Importancia Relativa de los Perfiles

CRS2 Con Resumen ndash Sin resumen (2)1

PAU Prueba del Algoritmo con diferentes Usuarios

PPA Probar Puntuacioacuten Alternativa

tfij Frecuencia de aparicioacuten del teacutermino tj en el documento di

tfhk Frecuencia del teacutermino tk en el titular h

wij Relevancia del teacutermino tj en el documento di

wh Vector caracteriacutestica del titular h

sim(P wh) Similitud entre el perfil P y el vector caracteriacutestica wh

fol Factor de olvido

CP Tasa que mide el porcentaje de titulares elegidos

1 Es un experimento similar a CRS pero utilizando los valores hallados empiacutericamente para ciertos paraacutemetros

xvii

ACROacuteNIMOS Y SIacuteMBOLOS MAacuteS UTILIZADOS

CR Tasa que mide el porcentaje de titulares ofrecidos destacados

CT Tasa que mide el porcentaje de titulares elegidos destacados

CD Tasa que relaciona la puntuacioacuten media de los titulares escogidos con la

puntuacioacuten media maacutexima

E Error Absoluto Medio

σ Desviacioacuten Estaacutendar del Error

r Coeficiente de Correlacioacuten entre titulares

RP(i) R-Precisioacuten en la sesioacuten i

xviii

Capiacutetulo 1

INTRODUCCIOacuteN

En pocos antildeos Internet se ha convertido en un medio de comunicacioacuten praacutecticamente

indispensable y en la principal fuente de informacioacuten para una parte importante de la

poblacioacuten del mundo desarrollado

Asiacute la Web1 con maacutes de 8 mil millones de paacuteginas seguacuten Google2 a septiembre de

2005 se estaacute convirtiendo raacutepidamente en la indiscutible opcioacuten de buacutesqueda cuando se

tiene necesidad de informacioacuten Su uso resulta cada vez maacutes importante para buscar o

intercambiar informacioacuten para expresar o leer opiniones acerca de la actualidad en todo

tipo de campos y para estar al diacutea en las noticias de todos los aacutembitos procedentes de

fuentes muy variadas

En general dada la gran cantidad de fuentes de informacioacuten disponibles

actualmente en la Web es probable que un amplio subconjunto de eacutestas sea del intereacutes de

un usuario encontraacutendose con tal cantidad informacioacuten que le resulte praacutecticamente

inabarcable Asiacute en muchos casos el usuario se limitaraacute a explorar la informacioacuten hallada

hasta cansarse auacuten cuando no haya cubierto su necesidad informativa Si la informacioacuten

ofrecida es muy amplia su revisioacuten resultaraacute probablemente una carga de trabajo maacutes que

una satisfaccioacuten Ademaacutes tal cantidad de informacioacuten contendraacute con seguridad artiacuteculos

maacutes interesantes que otros para un usuario concreto Por ello se buscaraacute una estrategia que

pueda aliviar la sobrecarga de informacioacuten a los usuarios y que ofrezca la informacioacuten

ordenada seguacuten las preferencias o necesidades del usuario obteniendo eacutestas de forma

automaacutetica

Nuestro objetivo primordial es crear un sistema de filtrado o priorizado de

informacioacuten que la presente a un usuario en orden de importancia seguacuten sus preferencias

que denominaremos NectaRSS

1 ldquoWebrdquo es un teacutermino que proviene del ingleacutes y significa ldquored informaacuteticardquo seguacuten [RAE 2003] En general se refiere a la ldquoWorld Wide Webrdquo o telarantildea mundial Tambieacuten puede referirse a un ldquodocumento situado en una red informaacutetica al que se accede mediante enlaces de hipertextordquo [RAE 2003] y que normalmente se denomina paacutegina web 2 httpwwwgooglecom

1

INTRODUCCIOacuteN

Como segundo objetivo buscaremos una forma de obtener las preferencias del

usuario sin esfuerzo adicional para eacuteste Desarrollaremos un meacutetodo automaacutetico basado en

el historial de lectura de la informacioacuten ofrecida Asiacute nuestra propuesta seraacute la confeccioacuten

incremental de un perfil de usuario en base a las selecciones de informacioacuten que vaya

realizando tal usuario

Finalmente como tercer objetivo habraacute que encontrar la forma oacuteptima de crear

ese perfil de usuario y de usarlo para dar la informacioacuten maacutes relevante y evaluar diferentes

estrategias y opciones para que el resultado sea oacuteptimo

11 Organizacioacuten de la tesis

Esta tesis se organiza de la forma siguiente

El Capiacutetulo 2 se dedica al estudio de los sistemas de recuperacioacuten de informacioacuten y

de los modelos utilizados para ello incidiendo especialmente en el modelo vectorial

de Salton Asiacute se repasan los conceptos fundamentales de los sistemas de

recuperacioacuten de informacioacuten el modelo conceptual la realimentacioacuten de la

relevancia el agrupamiento o ldquoclusteringrdquo de documentos la extraccioacuten y el pesado

automaacutetico de teacuterminos La segunda parte del capiacutetulo se dedica a la Web como

sistema de recuperacioacuten de informacioacuten trataacutendose los meacutetodos de recuperacioacuten

especiacuteficos para eacutesta las herramientas de buacutesqueda que se utilizan en dicho

contexto y los sistemas de recomendacioacuten La necesidad de este capiacutetulo se

fundamenta en el conocimiento de los sistemas de recuperacioacuten de informacioacuten de

la Web en particular y en conocer los modelos tiacutepicos para representar los

documentos NectaRSS es un sistema de recuperacioacuten de informacioacuten que utilizaraacute

el modelo vectorial

En el Capiacutetulo 3 se estudian las principales teacutecnicas de evaluacioacuten de los sistemas

de recuperacioacuten de informacioacuten y se definen conceptos como la relevancia y la

pertinencia Se comienza repasando los meacutetodos tradicionales de evaluacioacuten

destacando las medidas basadas en la relevancia la precisioacuten y la exhaustividad

principalmente y la relacioacuten entre eacutestas Se analizan diversos meacutetodos para estimar

la exhaustividad asiacute como las medidas promedio exhaustividad-precisioacuten Tambieacuten se

tratan los valores sumarios simples especialmente la R-Precisioacuten y otras medidas

alternativas como la exhaustividad y precisioacuten normalizadas la ratio de deslizamiento y la

2

INTRODUCCIOacuteN

medida de Voiskunskii El capiacutetulo proporciona un conocimiento general de las

teacutecnicas de evaluacioacuten de los sistemas de recuperacioacuten de la informacioacuten necesario

para aplicar dichas teacutecnicas al sistema experimental NectaRSS

El Capiacutetulo 4 define y clarifica diversos aspectos de un perfil de usuario Ademaacutes

se comentan los principales meacutetodos para su creacioacuten Se exponen diversas teacutecnicas

para adquirir los datos del usuario tales como la informacioacuten expliacutecita las reglas de

adquisicioacuten el reconocimiento del plan la utilizacioacuten de estereotipos y la

adquisicioacuten de datos de utilizacioacuten Entonces se aborda la representacioacuten del perfil

de usuario y las teacutecnicas de inferencia asociadas distinguiendo tres tipos de

razonamiento deductivo inductivo y analoacutegico Otro tema tratado es la

realimentacioacuten del usuario ya que eacutesta permitiraacute a dicho usuario actualizar su perfil

correspondiente Para finalizar el capiacutetulo se comentan algunas teacutecnicas alternativas

utilizadas en la creacioacuten de perfiles de usuario la utilizacioacuten de agentes software los

modelos estadiacutesticos el razonamiento basado en reglas y la agrupacioacuten o

ldquoclusteringrdquo de perfiles sin olvidar que un sistema puede combinar varias de ellas

Tambieacuten se comenta un ejemplo real de sistema de buacutesqueda adaptativa en la Web

basado en un perfil de usuario automaacutetico en el cual se inspiraraacute parte de nuestro

trabajo En este capiacutetulo se proporciona una visioacuten amplia de los perfiles de

usuario que resultaraacute uacutetil para el disentildeo de un meacutetodo propio que capte las

preferencias de los usuarios NectaRSS utilizaraacute un perfil de usuario para

representar las preferencias de eacuteste

En el Capiacutetulo 5 se expone nuestra propuesta para un sistema de recuperacioacuten y

recomendacioacuten de informacioacuten de la Web asiacute como su aplicacioacuten en un agregador

inteligente Trataremos los diversos aspectos teoacutericos que fundamentan el sistema

comenzando por las estrategias que se utilizaraacuten para la construccioacuten de un perfil

de usuario automaacutetico basado en su historia de navegacioacuten Se consideraraacute la

utilizacioacuten del modelo vectorial y el esquema tf descritos en el Capiacutetulo 2 y se veraacute

coacutemo se puntuacutea la informacioacuten que se ofrece al usuario mediante la medida del

coseno propuesta por Salton Se finaliza con una descripcioacuten general del sistema

propuesto que se denominaraacute NectaRSS Este capiacutetulo es necesario para conocer la

base teoacuterica que subyace en dicho sistema

El Capiacutetulo 6 trata de la evaluacioacuten experimental del sistema propuesto asiacute se

expondraacute el esquema general de experimentacioacuten y se detallaraacute la metodologiacutea

3

INTRODUCCIOacuteN

seguida A continuacioacuten se comentan las distintas estrategias que se utilizaraacuten en la

experimentacioacuten describiendo el tratamiento de las palabras y los experimentos que

se desarrollaraacuten Entonces se proponen diversas medidas para la evaluacioacuten del

sistema en base a las variables consideradas en los experimentos distinguiendo

distintas tasas o medidas porcentuales de valor simple Otras medidas estaraacuten

referidas a la puntuacioacuten que el sistema otorga a los distintos titulares de

informacioacuten Se compararaacute tambieacuten la distinta informacioacuten que selecciona el

usuario respecto a la que le ofrece el sistema empleando para ello medidas como el

Error Medio Absoluto la Desviacioacuten Estaacutendar del error la Correlacioacuten entre titulares y la

R-Precisioacuten descrita por [Baeza 1999] Asiacute este capiacutetulo serviraacute para conocer queacute

medidas se utilizan y coacutemo se evaluacutea el funcionamiento del sistema experimental

propuesto NectaRSS

En el Capiacutetulo 7 se exponen los experimentos realizados y los resultados

obtenidos Estos resultados se analizan y se representan graacuteficamente para extraer

conclusiones que permitan determinar diversos paraacutemetros del sistema y para

evaluar el funcionamiento del sistema propuesto con diversos usuarios calibrando

su funcionamiento en el ldquomundo realrdquo Este capiacutetulo serviraacute para comprobar la

efectividad del sistema NectaRSS analizando los valores obtenidos por las medidas

que evaluacutean su funcionamiento

Finalmente el Capiacutetulo 8 presenta en forma sinteacutetica las conclusiones y principales

aportaciones de esta tesis Ademaacutes se enumeran los objetivos que se han cumplido

y se proponen diversas liacuteneas de investigacioacuten identificadas en el desarrollo de la

tesis Es un resumen de los logros aportaciones y posibles liacuteneas a seguir a partir

de la investigacioacuten con NectaRSS

4

Capiacutetulo 2

LOS SISTEMAS DE RECUPERACIOacuteN DE

INFORMACIOacuteN

En este capiacutetulo se presentaraacuten un conjunto de conceptos e ideas que se han desarrollado

en el campo de los sistemas de recuperacioacuten de informacioacuten en adelante sistemas RI

o SRI Se abordaraacute el concepto de recuperacioacuten de informacioacuten y se expondraacuten distintos

modelos sobre los que se basan los sistemas RI destacando especialmente la recuperacioacuten

de informacioacuten en la Web y los sistemas de recomendacioacuten

El fundamento de esta introduccioacuten teoacuterica es proporcionar una base para la tesis

NectaRSS es un sistema RI se pretenden identificar las informaciones relevantes en el aacuterea

de intereacutes de los usuarios analizando para ello el contenido de los documentos se

realizaraacuten correspondencias entre los contenidos de las fuentes analizadas y los intereses de

cada usuario destacando entonces las informaciones maacutes relevantes Asimismo se

realizaraacuten los ajustes necesarios en el sistema captando de manera automaacutetica las

preferencias de los usuarios mediante un mecanismo de realimentacioacuten impliacutecita De esta

manera se podraacute recomendar la informacioacuten a cada usuario

21 Introduccioacuten

La recuperacioacuten de informacioacuten ldquose trata de una disciplina que involucra la localizacioacuten de una

determinada informacioacuten dentro de un almaceacuten de informacioacuten o base de datosrdquo [Meadow

1993] Peacuterez-Carballo afirma que ldquouna tiacutepica tarea de la recuperacioacuten de informacioacuten es

traer documentos relevantes desde un gran archivo en respuesta a una pregunta formulada

por un usuario y ordenar estos documentos de acuerdo con su relevanciardquo [Peacuterez 2000]

Para Grossman y Frieder ldquola recuperacioacuten de informacioacuten es encontrar documentos

relevantes no encontrar simples correspondencias a unos patrones de bitsrdquo [Grossman

1998]

Baeza-Yates utiliza la definicioacuten de recuperacioacuten de informacioacuten elaborada por

Salton ldquola recuperacioacuten de la informacioacuten tiene que ver con la representacioacuten

5

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

almacenamiento organizacioacuten y acceso a los iacutetems de informacioacutenrdquo [Baeza 1999] Baeza

define el problema de la recuperacioacuten de informacioacuten como ldquodada una necesidad de

informacioacuten y un conjunto de documentos ordenar los documentos de maacutes a menos

relevantes para esa necesidad y presentar un subconjunto de aquellos de mayor relevanciardquo

[Baeza 1999]

Para Salton ldquola recuperacioacuten de informacioacuten se entiende mejor cuando uno

recuerda que la informacioacuten que se procesa consiste en documentosrdquo de esta manera se

diferencian a los sistemas encargados de su gestioacuten de otros tipos de sistemas como los

gestores de bases de datos relacionales ldquoCualquier SRI puede describirse como un

conjunto de iacutetems de informacioacuten un conjunto de peticiones y alguacuten mecanismo que

determine queacute iacutetem satisface las necesidades de informacioacuten expresadas por el usuario en la

peticioacutenrdquo [Salton 1983] Ademaacutes considera ldquoel uso de una clasificacioacuten o de un sistema de

indizacioacutenrdquo

Otros autores como Croft consideran que la recuperacioacuten de informacioacuten seraacute ldquoel

conjunto de tareas mediante las cuales el usuario localiza y accede a los recursos de

informacioacuten que son pertinentes para la resolucioacuten del problema planteadordquo [Croft 1987]

22 Modelos para la recuperacioacuten de informacioacuten

Para realizar el disentildeo de un SRI se debe utilizar un modelo en el que se definiraacute coacutemo se

obtienen las representaciones de los documentos y de la consulta la estrategia para evaluar

la relevancia de un documento respecto a una consulta los meacutetodos para establecer la

importancia u orden de los documentos de salida y los mecanismos que permiten una

realimentacioacuten por parte del usuario para mejorar la consulta

Una propuesta de clasificacioacuten de los modelos de recuperacioacuten es la realizada por

[Dominich 2000] que se muestra en la tabla 21

Partiendo de la tarea inicial que realiza el usuario es posible realizar una

clasificacioacuten como la propuesta por Baeza-Yates que considera la recuperacioacuten de

informacioacuten a partir de una ecuacioacuten de buacutesqueda o bien mediante la consulta de

documentos en busca de referencias interesantes [Baeza 1999] Asiacute en esta clasificacioacuten se

introducen los modelos basados en la navegacioacuten entre paacuteginas web de estructura plana de

estructura guiada o de hipertexto seguacuten puede verse en la tabla 22

6

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Modelo Descripcioacuten

Claacutesicos Booleanos Probabiliacutesticos y basados en el Espacio Vectorial

Alternativos Basados en la Loacutegica Fuzzy

Loacutegicos Basados en la Loacutegica Formal

Basados en la

interactividad

Posibilidades de expansioacuten del alcance de la buacutesqueda y uso de

retroalimentacioacuten por relevancia

Basados en la

Inteligencia Artificial

Redes neuronales bases de conocimiento algoritmos geneacuteticos y

procesamiento de lenguaje natural

Tabla 21 Propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten Fuente

[Dominich2000]

Vista loacutegica de los documentos

Teacuterminos iacutendice Texto Completo Texto Completo +

Estructura

Recuperacioacuten Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Claacutesicos

Conjuntos teoacutericos

Algebraicos

Probabiliacutesticos

Estructurados

Mod

alida

d

Navegacioacuten Estructura plana Estructura plana

Hipertexto

Estructura guiada

Hipertexto

Tabla 22 Otra propuesta de clasificacioacuten de los Modelos de Recuperacioacuten de Informacioacuten seguacuten la

modalidad y la vista loacutegica de los documentos Fuente [Baeza 1999]

221 El Modelo Vectorial

Este modelo es muy utilizado en los sistemas RI el primer sistema que implementoacute el

modelo vectorial fue el SMART de Salton [Salton 1971 1983] En el sistema SMART cada

documento estaba representado por un vector de teacuterminos y cada componente del vector

representaba el peso wij del teacutermino tj presente en el documento di De esta manera la

representacioacuten loacutegica de cada documento seraacute un vector de pesos di = (wi1 wi2hellip wim)

donde wij indicaraacute el grado de relevancia de que el teacutermino tj esteacute presente en el documento

di Este peso suele estar relacionado con la frecuencia de aparicioacuten del teacutermino

Estos sistemas permiten antildeadir a los teacuterminos de las consultas distintos pesos en

funcioacuten de lo relevante que sea cada teacutermino de la consulta para el usuario Asiacute una

coleccioacuten de documentos se puede representar por una matriz en la que cada fila se refiera

a un documento y cada columna a un teacutermino seguacuten se muestra en la figura 21

7

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t1 t2 t3 hellip tj hellip tm

d1 w11 w12 w13 hellip w1j hellip w1m

d2 w21 w22 w23 hellip w2i hellip w2m

di wi1 wi2 wi3 hellip wij hellip wim

dn wn1 wn2 wn3 hellip wnj hellip wnm

Figura 21 Matriz de pesos de teacuterminos para el Modelo Vectorial Fuente [Llidoacute 2002]

Una consulta podraacute representarse de igual misma manera que un documento

asignaacutendole un vector de pesos asociados a los teacuterminos representando asiacute la importancia

de los teacuterminos en la consulta qk = (wk1 wk2hellip wkm)

En el modelo vectorial se proponen las siguientes propiedades para los teacuterminos

tfij es la frecuencia de aparicioacuten del teacutermino tj en el documento di

dfj indica el nuacutemero de documentos en los que aparece el teacutermino tj

A partir de eacutestas el peso wij se calcula frecuentemente seguacuten la siguiente funcioacuten

wij = tfij sdot idfj donde idf es la funcioacuten inversa de df o frecuencia inversa del documento

Asiacute idfj = log2 (Ndfj) siendo N el nuacutemero total de documentos

Un ejemplo de sistema que hace uso del modelo vectorial es el propuesto por

[Crabtree y Soltysiak 1998] Este sistema monitoriza la navegacioacuten del usuario en la Web y

su uso del correo electroacutenico para derivar sus intereses Los documentos se representaraacuten

mediante vectores con el peso de las N palabras maacutes representativas Los pesos de las

palabras se obtienen aplicando la regla tfsdot idf donde tf representa la frecuencia del teacutermino e

idf representa la frecuencia inversa del documento

8

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

El modelo vectorial hace la suposicioacuten baacutesica de que la proximidad relativa entre

dos vectores es proporcional a la distancia semaacutentica de los documentos En la figura 22

[Salton 1989] se muestran las distancias maacutes utilizadas como medidas de similitud en los

sistemas RI vectoriales

Medida de Similitud Modelo Vectorial

Producto escalar sum=sdot

m

i ii YX1

Coeficiente de Dice sum sum

sum= =

=

+

sdotsdotm

i

m

i ii

m

i ii

YX

YX

1 122

12

Coeficiente del coseno sum sumsum= =

=

sdot

sdotm

i

m

i ii

m

i ii

YX

YX

1 122

1

Coeficiente de Jaccard sumsum sum

sum== =

=

sdotminus+

sdotm

i iim

i

m

i ii

m

i ii

YXYX

YX

11 122

1

Figura 22 Medidas de similitud entre dos vectores de teacuterminos en el modelo vectorial Fuente [Salton 1989]

Una de las medidas de similitud maacutes utilizadas es la del coseno La relacioacuten coseno

mediraacute el coseno del aacutengulo entre documentos y consultas ya que eacutestos se representaraacuten

como vectores en un espacio multidimensional de dimensioacuten t Asiacute podemos expresar la

medida de similitud entre un documento di y una consulta qk siendo m el nuacutemero de

teacuterminos como

sum sumsum

= =

=

sdot

sdot=

sdotsdot

=m

1j

m

1j2kj

2ij

m

1j kjij

ki

kiki

ww

ww

qdqd)qsim(d rrrr

(21)

Un ejemplo de caacutelculo de la similitud tomado de [Raymond 2005] puede

observarse en la figura 23 donde aparecen representados dos documentos d1 d2 y una

consulta q respecto a los ejes t1 t2 y t3

9

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

t3

t1

t2

d1 = 2t1+ 3t2 + 5t3

d2 = 3t1 + 7t2 + 1t3

q = 0t1 + 0t2 + 2t3

7

32

5

Figura 23 Representacioacuten graacutefica de una consulta q junto a dos documentos d1 y d2 utilizando el modelo

vectorial Fuente [Raymond 2005]

El caacutelculo de la similitud entre los documentos d1 d2 y la consulta q del ejemplo se

efectuaraacute como sigue

810)400()2594(

52)( 1 =++sdot++

sdot=qdsim

130)400()1499(

12)( 2 =++sdot++

sdot=qdsim

teniendo en cuenta que d1 = (2 3 5) d2 = (3 7 1) y q = (0 0 2)

De los resultados se deduce que el documento d1 es bastante maacutes similar a la

consulta q que el documento d2 o lo que es lo mismo que el aacutengulo θ1 entre el vector que

representa a d1 y el vector que representa a q es menor que el aacutengulo θ2 entre el vector que

representa a d2 y el vector que representa a q tal y como puede verse en la figura 24

10

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

θ2

t3

t1

t2

d1

d2

q

θ1

θ2

t3

t1

t2

d1

d2

q

θ1

Figura 24 Representacioacuten graacutefica de los aacutengulos θ1 y θ2 entre los vectores de los documentos d1 y d2 y la

consulta q para el ejemplo de caacutelculo de similitud en el modelo vectorial descrito Fuente [Raymond 2005]

Al contar con una medida de similitud como la del coseno entre cada documento y

una consulta dada seraacute posible considerar un umbral en la recuperacioacuten de los

documentos de forma que se consideren relevantes aquellos cuyo valor en la foacutermula (21)

sea por ejemplo mayor o igual a 06 De este modo podemos considerar buacutesquedas no

exactas Los documentos pueden entonces presentarse al usuario en un orden decreciente

de similitud

2211 Realimentacioacuten de la Relevancia

Si se le presenta al usuario una lista de documentos relevantes y dicho usuario realiza un

juicio sobre la relevancia de los documentos recuperados con respecto a la consulta esta

informacioacuten podraacute ser utilizada por el sistema para construir nuevos vectores de consulta

A este proceso se le conoce como ldquorelevance feedbackrdquo o realimentacioacuten de la relevancia

Entonces las consultas reformuladas podraacuten compararse con los documentos de la base de

documentos para obtener un nuevo conjunto de documentos relevantes La finalidad de

este proceso es obtener una nueva consulta que muestre un mayor grado de similitud con

los documentos identificados previamente como relevantes y al mismo tiempo que sea

menos similar a los documentos marcados como poco relevantes por el usuario De esta

manera las consultas reformuladas deberaacuten recuperar maacutes documentos relevantes y menos

documentos irrelevantes que las consultas previamente formuladas

11

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

La reformulacioacuten de consultas se basa en las dos operaciones complementarias

siguientes

Los teacuterminos que aparecen en los documentos identificados previamente como

relevantes por el usuario se antildeadiraacuten al vector de la consulta original o su peso

se incrementaraacute por un factor si ya se encontraban en dicho vector

Los teacuterminos que aparecen en los documentos previamente identificados como

no relevantes por el usuario se eliminaraacuten del vector de la consulta o su peso

seraacute reducido

Este proceso de realimentacioacuten de la relevancia podraacute aplicarse tantas veces como

se requiera para mejorar el resultado de la consulta

2212 Agrupacioacuten o ldquoclusteringrdquo de documentos

La foacutermula (21) de la medida del coseno se ha utilizado para medir la similitud entre un

documento y una consulta pero tambieacuten se puede utilizar para determinar la similitud entre

pares de documentos Asiacute dados los vectores de dos documentos di y dj la similitud entre

ellos puede definirse como

sum sumsum

= =

=

sdot

sdot=

sdot

sdot=

m

k

m

k jkik

m

k jkik

ji

jiji

ww

ww

dd

ddddsim

1 122

1)( rr

rr

(22)

Si determinamos la similitud entre pares de documentos se podraacute construir un

agrupamiento de documentos Cada clase o ldquoclusterrdquo agruparaacute documentos similares a un

representante de esa clase denominado centroide

Dado un conjunto de m documentos que constituyen una clase p el centroide

Cp=(cp1 cp2hellip cpk) se puede calcular como la media aritmeacutetica de los vectores de los

documentos incluidos en dicha clase El peso del teacutermino k del centroide de la clase p

puede calcularse como la media de los pesos del teacutermino k en todos los m vectores de

documentos en la clase p

m

wc

m

1i ikpk

sum== (23)

12

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

De esta manera al organizar los documentos en clases la buacutesqueda de un

documento se realizaraacute en dos etapas En primer lugar la consulta se compararaacute con los

centroides de cada clase calculando los correspondientes coeficientes de similitud Luego

los documentos pertenecientes a las clases que muestran cierta similitud con la consulta se

compararaacuten con la consulta seguacuten la foacutermula (22) y se recuperaraacuten aquellos documentos

que resulten similares a la consulta

Asiacute si existen n documentos en la coleccioacuten que son clasificados en x clases cada

una de ellas aproximadamente con nx documentos entonces el nuacutemero de comparaciones

entre vectores se reduciraacute a x + nx en vez de las n comparaciones originales

2213 Extraccioacuten y Pesado Automaacutetico de teacuterminos

La construccioacuten de los vectores asociados a cada documento se realiza durante el proceso

de indexado de la coleccioacuten de documentos Dicha tarea consistiraacute en dos etapas primero se

determinan los teacuterminos representativos del contenido de un documento y segundo se

asigna a cada teacutermino un peso o valor que refleje su importancia como representante del

contenido del documento

La primera etapa es relativamente sencilla se basa en la extraccioacuten de los teacuterminos

que componen el texto de los documentos pudieacutendose considerar tambieacuten el tiacutetulo el

resumen o cualquier otra fuente de informacioacuten asociada al documento La segunda etapa

la asignacioacuten de pesos a esos teacuterminos seraacute una tarea que necesita un anaacutelisis maacutes

profundo

La mayoriacutea de los intentos de indexacioacuten automaacutetica se basan en la idea de que la

frecuencia de ocurrencia de un teacutermino en un documento tiene alguna relacioacuten con la

importancia de ese teacutermino como representante del contenido del documento Si

ordenamos las distintas palabras de un documento en orden decreciente de frecuencia de

aparicioacuten la ocurrencia del vocabulario puede ser caracterizada por una constante z tal y

como enuncia la ley de Zipf en [Zipf 1949]

zordenfrecuencia asympsdot (24)

Es decir se cumple que la frecuencia de una palabra multiplicada por su puesto en

el orden seraacute aproximadamente igual a la frecuencia de cualquier otra palabra multiplicada

por el suyo correspondiente

13

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Utilizando esta ley de Zipf se podraacute obtener el factor de relevancia de un teacutermino

basaacutendonos en las frecuencias de las palabras de la coleccioacuten de documentos siguiendo los

siguientes pasos

1 En una coleccioacuten de n documentos se calcula la frecuencia de cada teacutermino

tj en cada documento di tfij

2 Se determina la frecuencia de cada teacutermino tj respecto a la coleccioacuten

completa sumando sus frecuencias en los n documentos

sum==

n

1i ijj tftf_tot

3 Se ordenan las palabras en orden decreciente de tot_tfj y se eliminan aquellas

que tengan un valor superior a un umbral dado para excluir las palabras

muy frecuentes

4 Del mismo modo se eliminan las palabras poco frecuentes

5 Las palabras restantes con una frecuencia media se utilizaraacuten para

caracterizar los documentos indexados

Para justificar estos pasos nos basamos en la conjetura del poder de resolucioacuten que

establece que el poder de resolucioacuten es maacuteximo en el rango medio de frecuencias de

aparicioacuten de las palabras tal y como puede observarse en la figura 25 El poder de

resolucioacuten seraacute la habilidad de los teacuterminos de indexacioacuten para convertirse en iacutetems

relevantes [Vegas 1999]

Figura 25 Graacutefico del poder de resolucioacuten de los teacuterminos de un documento Fuente [Vegas 1999]

14

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Sin embargo la eliminacioacuten de todas las palabras muy frecuentes puede producir

peacuterdida en la exhaustividad mientras que la eliminacioacuten de las palabras poco frecuentes

puede ocasionar peacuterdidas en la precisioacuten Ademaacutes seraacute necesario elegir los umbrales

correctos que determinen un buen conjunto de palabras de frecuencia media Todo esto

nos conduce a reconsiderar la utilizacioacuten de las frecuencias de aparicioacuten en modo absoluto

y su sustitucioacuten por frecuencias relativas mediante diversas estrategias

La Frecuencia de Documento Inversa Consiste en asumir que la importancia del

teacutermino es proporcional a la frecuencia de ocurrencia de cada teacutermino tj en cada

documento di tfij e inversamente proporcional al nuacutemero de documentos en los que se

encuentra ese teacutermino dfi De esta manera se puede considerar la medida del peso del

teacutermino tj en el documento di como

wij = tfij dfi (25)

El Valor de Discriminacioacuten Esta medida pretende cuantificar el grado en el que el uso

de un teacutermino va a ayudar a distinguir un documento de otro Dada una coleccioacuten de

documentos y dos documentos di y dj podemos utilizar una medida de similitud sim(di dj)

para representar la similitud entre esos documentos Las funciones tiacutepicas de similitud

generan valores entre 0 para documentos sin similitud y 1 para documentos

completamente iguales

Obteniendo la similitud para todos los pares de documentos di y dj con i ne j se

puede calcular una similitud media para la coleccioacuten

sumsum= =

=n

1i

n

1jji )dsim(dcsim con i ne j (26)

donde c es una constante por ejemplo 1n(n - 1) La foacutermula (26) representa una

medida de la densidad del espacio de documentos el grado en que los documentos se

agrupan en el espacio de documentos Asiacute si todos los documentos fuesen iguales sim

tendriacutea el valor c n(n - 1) = 1

15

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para calcular de manera maacutes eficiente la densidad del espacio de documentos se

puede obtener un documento medio d como centroide cuyos teacuterminos se supone que

poseen caracteriacutesticas de frecuencia media Entonces la frecuencia media del teacutermino tj se

definiraacute como

sum=

=n

1iijj tf

n1tf (27)

En este punto se calcularaacute la densidad del espacio de documentos como la suma de

las similitudes de cada documento con respecto al centroide con la siguiente foacutermula

menos costosa que la (26)

sum=

=n

1ii )dd(simcsim (28)

Consideramos ahora el caso en el que se haya eliminado el teacutermino tj de todos los

documentos de la coleccioacuten original Sea jsim la densidad del espacio de documentos en

este caso Si el teacutermino tj fuera un teacutermino con alta frecuencia de aparicioacuten y con una

distribucioacuten de frecuencias praacutecticamente constante significariacutea que aparece en casi todos

los documentos entonces su eliminacioacuten reduciraacute la similitud media entre pares de

documentos Esta situacioacuten resulta desfavorable ya que cuando un teacutermino como eacuteste se

asigne a los documentos se incrementaraacute la media de la similitud comprimiendo el espacio

de documentos Por otra parte si un teacutermino tj hubiese obtenido un peso alto en unos

documentos pero no en otros su eliminacioacuten produciraacute un incremento de similitud entre

documentos

Se puede calcular el valor de discriminacioacuten de un teacutermino tj dvj como

simsimdv jj minus= (29)

Cuando se haya calculado el valor jsim para todos los teacuterminos tj eacutestos podraacuten

ordenarse en orden decreciente seguacuten su valor de discriminacioacuten Entonces los que

16

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

aparezcan en el principio de la lista seraacuten muy especiacuteficos mientras que los del final de la

lista seraacuten muy comunes De esta manera los teacuterminos de indexacioacuten se pueden clasificar

en tres categoriacuteas seguacuten su valor de discriminacioacuten

Buenos discriminadores con un valor dvj positivo que al ser considerados en la

indexacioacuten decrementan la densidad del espacio

Discriminadores neutros con un valor dvj cercano a cero y cuya eliminacioacuten o

adicioacuten no variacutea la similitud entre documentos

Malos discriminadores con un valor dvj negativo que hacen maacutes similares a los

documentos

Mediante el caacutelculo del valor de discriminacioacuten obtenemos un meacutetodo objetivo

para determinar el umbral de frecuencia asiacute los teacuterminos con alta frecuencia y un valor de

discriminacioacuten negativo seraacuten pobres y no deberaacuten utilizarse en la indexacioacuten Los teacuterminos

con baja frecuencia y un valor de discriminacioacuten cero pueden o no ser utilizados su

consideracioacuten no afectaraacute a las prestaciones del sistema de recuperacioacuten aunque si puede

afectar a la eficiencia del sistema que deberaacute almacenar y manipular gran cantidad de

teacuterminos poco frecuentes Por uacuteltimo los teacuterminos que son buenos discriminadores con

poder de resolucioacuten tendraacuten un valor de discriminacioacuten positivo y deberaacuten considerarse en

la indexacioacuten coincidiendo con los de frecuencia intermedia

Ahora podemos definir una medida del peso de un teacutermino que tenga en cuenta la

frecuencia relativa de aparicioacuten del mismo combinando dicha frecuencia con el valor de

discriminacioacuten

wij = tfij dvj (210)

222 El Modelo Probabiliacutestico

Este modelo se apoyaraacute en la teoriacutea de la probabilidad para construir y determinar el uso de

una funcioacuten de buacutesqueda capaz de diferenciar un documento relevante de otro que no lo

sea [Rijsbergen 1979] Para componer esta funcioacuten de buacutesqueda se examinaraacute la

distribucioacuten de los teacuterminos de indexacioacuten a lo largo de la coleccioacuten de documentos o de

17

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

un subconjunto de ella A la funcioacuten de buacutesqueda se le podraacute aplicar realimentacioacuten de la

relevancia para automatizar el ajuste del valor de sus paraacutemetros

La funcioacuten de buacutesqueda estaraacute compuesta por una serie de pesos asociados a los

teacuterminos de indexacioacuten tal y como se introdujo en la seccioacuten dedicada al modelo vectorial

La diferencia entre ambos modelos reside en la forma de calcular el peso de los teacuterminos en

la consulta Asiacute en el modelo probabiliacutestico los pesos de los teacuterminos que aparezcan en los

documentos relevantes de una consulta previa deberaacuten incrementarse frente a los pesos de

los teacuterminos que no aparezcan Este caacutelculo se basaraacute en los valores de la tabla 23 llamada

de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en donde N seraacute el nuacutemero total de documentos en la

coleccioacuten R seraacute el nuacutemero de documentos relevantes para la consulta q n seraacute el nuacutemero

de documentos que incluyen el teacutermino t y r seraacute el nuacutemero de documentos relevantes que

incluyen el teacutermino t El contenido de la uacuteltima fila y de la uacuteltima columna seraacute el resultado

de sumar las filas y columnas correspondientes

doc relevantes doc no relevantes

t isin doc r n - r n

t notin doc R - r N ndash n ndash R + r N - n

R N - R N

Tabla 23 Tabla de contingencias que muestra la distribucioacuten del teacutermino t en los documentos relevantes y no

relevantes para una consulta q en el modelo probabiliacutestico [Rijsbergen 1979]

Apoyaacutendose en esta tabla de contingencias Robertson [Robertson 1976] y Sparck

Jones [Sparck 1975 1979] derivaron varias foacutermulas para calcular el peso de un teacutermino

basaacutendose en los resultados de una consulta previa

)(

)(log)(1

NnRr

tw = (211)

)(

)(log)(2

RNrn

Rr

tw

minusminus

= (212)

18

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

)(

)(log)(3

nNn

rRr

tw

minus

minus= (213)

)(

)(log)(4

rRnNrnrR

r

tw

+minusminusminusminus= (214)

Estas cuatro foacutermulas fueron estudiadas y probadas por diferentes autores

destacando los trabajos de Sparck Jones [Sparck 1975 1979] que las utilizoacute en una serie de

experimentos sobre la coleccioacuten Cranfield1 indexada manualmente La foacutermula (214)

proporcionoacute los mejores resultados seguida de cerca por la foacutermula (213)

23 La Web como sistema de recuperacioacuten de informacioacuten

Berners-Lee [Berners 1989] quiso desarrollar un meacutetodo eficiente y raacutepido para

intercambiar datos cientiacuteficos combinando dos tecnologiacuteas existentes en 1991 el hipertexto

y el protocolo de comunicaciones TCPIP Implantoacute un nuevo modelo de acceso a la

informacioacuten en Internet la ldquoWorld Wide Webrdquo WWW o la Web Su objetivo baacutesico era

evitar la peacuterdida de informacioacuten inherente a una gran organizacioacuten asiacute como facilitar el

acceso a la informacioacuten disponible Dos caracteriacutesticas fundamentales de la propuesta han

convertido a la Web en lo que es en la actualidad su naturaleza distribuida y la posibilidad

de establecer viacutenculos entre los documentos

La propuesta original de Berners-Lee insistiacutea en la necesidad de hacer el sistema

suficientemente atractivo para animar a los usuarios a incorporar informacioacuten al mismo de

tal forma que su utilidad creciese al antildeadirse nuevos documentos y esa utilidad creciente

impulsase a su vez a seguir aumentando la base de documentos ldquoUn sistema con enlaces

permitiriacutea a los usuarios navegar a traveacutes de conceptos documentos sistemas y autores

permitiendo asimismo almacenar referencias entre documentosrdquo

Se disentildeoacute un sistema para crecer de un modo cada vez maacutes acelerado sin incluir

ninguacuten tipo de mecanismo capaz de facilitar la localizacioacuten de un documento en particular

No obstante seriacutea un error interpretar esto como una criacutetica hacia la forma en que se

1 Consiste en 1398 documentos sobre distintos aspectos de ingenieriacutea aeronaacuteutica y 225 preguntas para las que se conocen los juicios de relevancia [Loacutepez 2002]

19

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

implementoacute finalmente la Web esta decisioacuten de disentildeo facilitoacute su desarrollo y posterior

crecimiento y desde la puesta en marcha del primer servidor Web auacuten transcurrieron tres

antildeos hasta que la necesidad de un sistema de buacutesqueda de informacioacuten para la Web se

hiciera apremiante

Asiacute la Web es un nuevo contexto con particularidades muy definidas por lo que se

precisaraacute una adaptacioacuten del concepto de recuperacioacuten de informacioacuten Delgado

Domiacutenguez [Delgado 1998] afirma que ldquose puede definir el objetivo de la recuperacioacuten

como la identificacioacuten de una o maacutes referencias de paacuteginas web que resulten relevantes

para satisfacer una necesidad de informacioacutenrdquo En este caso los SRI que se empleen en la

Web nos devolveraacuten referencias a los documentos en lugar de los propios documentos

231 Meacutetodos de recuperacioacuten de informacioacuten en la Web

Las teacutecnicas de RI que se utilizan en la Web proceden de las empleadas en los SRI

tradicionales Sin embargo tanto el entorno de trabajo como las caracteriacutesticas de los datos

almacenados son diferentes Asiacute pueden surgir serios problemas al realizar operaciones de

recuperacioacuten de informacioacuten en la Web

La Web ldquoposee unas caracteriacutesticas desde el punto de vista documental que la

configuran como un entorno singular y diferente de los claacutesicos Algunas de estas

caracteriacutesticas son las siguientesrdquo [Delgado 2001]

Gran tamantildeo de la base de datos documental a septiembre de 2005 existen maacutes

de 8000 millones de paacuteginas web indizadas por el buscador Google

Heterogeneidad de las publicaciones en cuanto a

o Tipos de documentos los artiacuteculos cientiacuteficos coexisten con paacuteginas

personales y comerciales

o Tipos de datos las paacuteginas web pueden contener texto simple y elementos

multimedia Ademaacutes admiten muchos formatos

o Estructura interna de las paacuteginas la mayoriacutea estaacuten codificadas en HTML2 y

aunque existen unas especificaciones de dicho lenguaje publicadas por el

2 HTML es un lenguaje sencillo que controla la presentacioacuten y el comportamiento de documentos web Para maacutes informacioacuten consultar la seccioacuten AI1 del Anexo I

20

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

W3C3 los autores de las paacuteginas no suelen ser muy estrictos debido a que

los navegadores son muy permisivos respecto a la sintaxis de los

documentos Esto dificulta su lectura e indizacioacuten mediante un programa

informaacutetico

o Estructura externa en muchas paacuteginas no se puede identificar quieacuten es el

autor o su fecha de publicacioacuten datos muy importantes en las referencias

bibliograacuteficas

o Calidad publicar en la Web es gratuito en muchos servidores es faacutecil e

instantaacuteneo esto conduce a que muchos paacuteginas no tengan ninguna calidad

cientiacutefica que puedan contener afirmaciones falsas o inventadas y errores

tipograacuteficos

o Disentildeo hipertextual una paacutegina web se identifica con un nodo de la

estructura hipertextual de la Web Puede coincidir con las partes claacutesicas de

los documentos escritos capiacutetulos secciones o paacuterrafos con la porcioacuten de

texto que cabe en la pantalla sin realizar desplazamientos con documentos

completos con el desarrollo de una idea Un documento puede contener

una o maacutes paacuteginas web y por otra parte una paacutegina web puede contener

resuacutemenes o extractos de varios documentos

Audiencia es muy faacutecil hacer que un documento esteacute accesible al mismo tiempo

para cualquiera de los millones de internautas

Dinamismo y volatilidad muchas paacuteginas web se generan en tiempo real como

resultado de consultas realizadas en buscadores y su vida puede reducirse al tiempo

de visualizacioacuten del usuario otras paacuteginas cambian de URL4 o incluso cambian

totalmente de contenido manteniendo la misma URL

Invisibilidad no todas las paacuteginas web resultan susceptibles de ser encontradas

como por ejemplo aqueacutellas que por deseo del autor no son indizadas aqueacutellas que

por estar en niveles muy profundos de la jerarquiacutea de directorios de un servidor

3 W3C es un consorcio que desarrolla tecnologiacuteas inter-operativas (especificaciones liacuteneas maestras software y herramientas) para guiar la Web a su potencialidad maacutexima a modo de foro de informacioacuten comercio comunicacioacuten y conocimiento colectivo 4 URL es el acroacutenimo de ldquoUniform Resources Locatorrdquo o localizador uniforme de recursos que permite localizar o acceder de forma sencilla a cualquier recurso de la Red

21

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

web no suelen ser tenidas en cuenta por un robot5 aqueacutellas que soacutelo son accesibles

mediante contrasentildea o aqueacutellas que no son enlazadas por ninguna otra

ldquoEn conclusioacuten podriacuteamos decir que el crecimiento explosivo de la Web unido a la

diversidad de informacioacuten que contiene su diversa procedencia y la anarquiacutea de su

organizacioacuten dificultan enormemente el hallazgo de informacioacuten uacutetil para un usuario

determinado maacutes auacuten cuando es el propio usuario quien efectuacutea sus propias buacutesquedasrdquo

[Delgado 2001]

2311 Herramientas de buacutesqueda en la Web

Seguacuten Baeza-Yates se pueden considerar tres maneras de buscar informacioacuten en la Web

ldquola primera de ellas es utilizar los motores de buacutesqueda que indexan una porcioacuten de los

documentos existentes en la globalidad de la Web y permiten localizar informacioacuten

mediante la formulacioacuten de una pregunta La segunda es utilizar directorios sistemas que

clasifican documentos Web seleccionados por materias y que nos permiten navegar por sus

secciones o buscar en sus iacutendices La tercera es buscar en la Web mediante la explotacioacuten

de su estructura hipertextualrdquo [Baeza 1999]

Motores de Buacutesqueda o Buscadores

Los buscadores utilizan robots para rastrear la estructura hipertextual de la Web y

localizar los recursos que incluiraacuten automaacuteticamente en su base de datos Cada robot rastrea

a su manera en la Web de ahiacute que la informacioacuten almacenada en cada base de datos sea

diferente Generalmente parten de una lista determinada y a partir de ahiacute realizan un

rastreo recursivo de los documentos que se referencian [Delgado 2001]

Se puede observar el tamantildeo de la base de datos de los principales buscadores y su

evolucioacuten en el graacutefico de la figura 26 obtenido de Searchenginewatch6

5 Un robot de la Web es un programa que recorre automaacuteticamente la estructura de hipertexto de la Web buscando un documento y devuelve recursivamente los documentos a los que eacuteste hace referencia aplicaacutendole a eacutestos el mismo proceso 6 httpsearchenginewatchcom

22

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Miles de millones de Documentos Textuales Indexados Diciembre 1995-Septiembre 2003

GG=Google INK=Inktomi AV=AltaVista ATW=AllTheWeb TMA=Teoma

Figura 26 Comparacioacuten de la cantidad de documentos indexados por los buscadores maacutes representativos

desde el antildeo 1995 hasta el antildeo 2003 Fuente httpsearchenginewatchcomreportsarticlephp2156481 en liacutenea

Para utilizar un buscador el usuario expresaraacute su necesidad de informacioacuten

mediante un formulario Este puede consistir desde una simple caja donde teclear las

palabras clave hasta una buacutesqueda avanzada con multitud de opciones para expresar con un

mayor detalle aquello que desea buscar Las buacutesquedas avanzadas suelen ofrecer la

posibilidad de utilizar operadores booleanos de adyacencia de existencia de exactitud y a

veces tambieacuten se puede delimitar la buacutesqueda por fechas por ciertas etiquetas de HTML

por tipo de fuente por aacuterea geograacutefica o dominio y por idioma

Los resultados de la buacutesqueda se mostraraacuten al usuario ordenados seguacuten alguacuten

criterio de relevancia La ordenacioacuten suele calcularse seguacuten alguna funcioacuten de similitud de

la pregunta con respecto a los documentos o en funcioacuten de la popularidad de las paacuteginas

Una de las ventajas de los buscadores es que son muy exhaustivos gracias a que sus

procesos de recogida de recursos y de indizacioacuten son automaacuteticos sin embargo estos

recursos indexados automaacuteticamente no pasan por ninguacuten proceso de seleccioacuten de calidad

por lo que podemos encontrarnos con muchos resultados poco uacutetiles

Directorios

Atendiendo a [Delgado 2001] en los directorios la informacioacuten estaacute organizada en una

estructura jeraacuterquica atendiendo a alguacuten criterio de clasificacioacuten en categoriacuteas Se pueden

23

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

utilizar esquemas de clasificacioacuten universalmente difundidos como por ejemplo el ldquoDewey

Decimal Classificationrdquo (DDC) el ldquoUniversal Decimal Classificationrdquo (UDC) o el ldquoLibrary

of Congress Classificationrdquo (LCC) aunque generalmente se aplican esquemas propios y en

algunos casos la clasificacioacuten se realiza de forma automaacutetica Un esquema de clasificacioacuten

estaacutendar aportaraacute ventajas para los profesionales de la buacutesqueda de informacioacuten y tambieacuten

para los usuarios asiduos de bibliotecas familiarizados con tales esquemas

En la recogida y seleccioacuten de recursos se aplican criterios de pertinencia y calidad

formal y de contenido para evaluar si un recurso merece ser incluido o no en el directorio

Ademaacutes se suele permitir que los usuarios remitan una URL para ser evaluada

Los directorios se exploraraacuten mediante navegacioacuten es decir los usuarios recorren la

estructura ramificada para buscar la informacioacuten que necesitan De esta manera el usuario

puede descender por distintos niveles de especificidad hasta encontrar la informacioacuten

adecuada a sus intereses sin necesidad de formular expliacutecitamente su consulta

Los directorios suelen ser maacutes faacuteciles de utilizar que los buscadores soacutelo hay que

elegir la categoriacutea que se ajuste a nuestro propoacutesito su contenido se puede examinar

globalmente podemos cambiar la especifidad de la buacutesqueda bajando o subiendo en la

estructura del directorio y los documentos hallados estaraacuten en el contexto de la categoriacutea

en que se realiza la buacutesqueda Sin embargo cubren solo una pequentildea parte de los recursos

existentes en la Web y adolecen de una falta de criterios homogeacuteneos para la seleccioacuten y

clasificacioacuten de los documentos

Multibuscadores

Para [Baeza 1999] los multibuscadores son servidores Web que enviacutean una pregunta

dada a varios motores de buacutesqueda directorios Web y otras bases de datos entonces

recolectan las respuestas y las unifican para mostrarlas al usuario Ejemplos son Metacrawler

[Selberg 1995] y SavvySearch [Howe 1997]

Seguacuten [Delgado 2001] ldquolos multibuscadores o metabuscadores proporcionan la

posibilidad de buscar a traveacutes de un nuacutemero determinado de herramientas de buacutesqueda de

forma simultaacutenea No utilizan robots para recoger o mantener unas bases de datos propias

individuales sino que utilizan las bases de datos de los buscadores o directorios sobre los

que lanzan las peticiones de los usuarios Existen multibuscadores que presentan los

resultados de forma concatenada es decir para cada motor interrogado se presenta una lista

24

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

de los resultados obtenidos y otros que permiten obtener los resultados de forma

integrada eliminando los duplicados e indicando para cada resultado queacute buscador o

buscadores lo han proporcionadordquo

Buacutesquedas aprovechando la estructura hipertextual de la Web

Para [Baeza 1999] otras formas de buacutesqueda en la Web pueden llevarse a cabo

utilizando lenguajes especiacuteficos para interrogar a la Web o ldquoWeb Query Languagesrdquo

mediante Buacutesqueda Dinaacutemica y empleando Agentes de Software

La idea de los ldquoWeb Query Languagesrdquo es incluir en la pregunta la estructura de

enlaces de las paacuteginas Web y no solamente el contenido de cada paacutegina Por ejemplo

podriacuteamos querer una buacutesqueda de todas las paacuteginas Web que contengan al menos una

imagen y que sean alcanzables desde un sitio siguiendo como mucho tres enlaces Para

posibilitar este tipo de buacutesqueda se necesitaraacuten diferentes modelos de datos el maacutes

importante seraacute un modelo de grafo etiquetado para representar las paacuteginas Web (nodos) y

los hiperenlaces (aristas) entre paacuteginas y un modelo de datos semi-estructurado para

representar el contenido de las paacuteginas Web Lenguajes de este tipo son STRUQL

[Fernaacutendez 1997] FLORID [Himmeroder 1997] y WebOQL [Arocena 1998]

La Buacutesqueda Dinaacutemica en la Web seraacute equivalente a la buacutesqueda secuencial de

texto La idea es descubrir informacioacuten relevante siguiendo los enlaces de las paacuteginas La

principal ventaja es que se busca en la estructura actual de la Web y no en la almacenada en

el iacutendice de un buscador Esta aproximacioacuten seraacute lenta para toda la Web pero podraacute

utilizarse en pequentildeos subconjuntos dinaacutemicos de la Web La primera heuriacutestica disentildeada

para esta funcioacuten fue ldquofish searchrdquo [De Bra 1994] que saca provecho de la intuicioacuten de

que los documentos relevantes suelen tener como ldquovecinosrdquo documentos relevantes Asiacute la

buacutesqueda seguiraacute los enlaces de los documentos relevantes Esta heuriacutestica se mejoroacute con

ldquoshark searchrdquo [Hersovici 1998] que realiza una mejor valoracioacuten de la relevancia de las

paacuteginas ldquovecinasrdquo

Otros trabajos incluyen los Agentes de Software para buscar informacioacuten especiacutefica

en la Web [Ngu 1997] [LaMacchia 1997] Esto implica el tratamiento con diversas fuentes

heterogeacuteneas de informacioacuten que tienen que ser combinadas Temas importantes a tener en

cuenta seraacuten coacutemo se determinan las fuentes relevantes y coacutemo se combinan los resultados

recuperados [Baeza 1999]

25

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

232 Navegando por la informacioacuten de la Web

Los documentos hipertextuales de la Web pueden ofrecer informacioacuten en forma de texto

sonido imaacutegenes animaciones viacutedeos y otras formas A la operacioacuten de explorar en la

Web para encontrar dicha informacioacuten se le denomina geneacutericamente navegar por la Web

Existen diversas maneras de navegar por la informacioacuten de la Web la maacutes comuacuten es

utilizando programas navegadores Tambieacuten seraacute posible navegar en eacutesta a traveacutes de otros

programas tales como los agregadores de contenidos A continuacioacuten se comentaraacuten las

principales caracteriacutesticas de estos programas

Navegadores

Un navegador web o ldquoweb browserrdquo es una aplicacioacuten software que permite al usuario

recuperar y visualizar documentos de hipertexto7 comuacutenmente descritos en HTML a

traveacutes de Internet Esta red de documentos es denominada ldquoWorld Wide Webrdquo o Telarantildea

Mundial Los navegadores actuales permiten mostrar yo ejecutar graacuteficos secuencias de

viacutedeo sonido animaciones y programas diversos ademaacutes del texto y los hiperviacutenculos o

enlaces

La funcionalidad baacutesica de un navegador web es permitir la visualizacioacuten de

documentos de texto posiblemente con recursos multimedia incrustados Tales

documentos comuacutenmente denominados paacuteginas web pueden poseer hiperviacutenculos que

enlazan una porcioacuten de texto o una imagen a otro documento normalmente relacionado

con el texto o la imagen El seguimiento de enlaces de una paacutegina a otra ubicada en

cualquier ordenador conectado a Internet se llama navegacioacuten

El primer navegador desarrollado en el CERN8 a finales de 1990 y principios de

1991 por Tim Berners-Lee era bastante sofisticado y graacutefico pero soacutelo funcionaba en

determinados equipos de trabajo

El navegador Mosaic fue el primero que se extendioacute preparaacutendose versiones para

distintos sistemas operativos Sin embargo poco maacutes tarde el navegador Netscape

Navigator superoacute raacutepidamente a Mosaic en capacidad y velocidad

7 Un hipertexto es un documento digital que se puede leer de manera no secuencial 8 La sigla CERN viene de su antiguo nombre Centro Europeo para la Investigacioacuten Nuclear (Centre Europeacuteen pour la Recherche Nucleacuteaire en franceacutes) Se trata de un laboratorio de investigacioacuten en fiacutesica de partiacuteculas

26

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Internet Explorer fue la apuesta de la empresa Microsoft para el mercado de los

navegadores que finalmente consiguioacute desbancar a Netscape Navigator En los uacuteltimos

antildeos se ha vivido una auteacutentica explosioacuten del nuacutemero de navegadores y eacutestos ofrecen cada

vez mayor integracioacuten con el entorno de ventanas en el que se ejecutan ldquoNetscape

Communications Corporationrdquo liberoacute el coacutedigo fuente de su navegador naciendo asiacute el

proyecto Mozilla

A finales de 2004 aparece en el mercado Firefox una rama de desarrollo de Mozilla

que pretende hacerse con parte del mercado de Internet Explorer Se trata de un navegador

maacutes ligero que su hermano mayor

Agregadores de contenidos

Son un producto reciente en la Web su funcioacuten es aglutinar informacioacuten de distintas

paacuteginas web que distribuyen los contenidos en lenguajes especiacuteficos como por ejemplo

RSS9 o Atom10 chequeando ademaacutes la actualidad de esas fuentes de informacioacuten De esta

manera un agregador seraacute un sistema que recupera informacioacuten procedente de diversas

fuentes de la Web de forma que no sea necesario visitar las paacuteginas en cuestioacuten para

obtener sus contenidos centralizando asiacute la informacioacuten en un uacutenico lugar de consulta

Existe una extensa lista de programas agregadores [RSS 2005] [RSSfeeds 2005]

[Goo 2005] la mayoriacutea de ellos tienen un aspecto y funcionamiento muy parecido Por una

parte permitiraacuten subscribirse a las diferentes fuentes de informacioacuten que resulten de intereacutes

para el usuario y por otra comprobaraacuten perioacutedicamente los contenidos ofrecidos en esas

fuentes seleccionadas para detectar si se han actualizado en cuyo caso suelen presentar

alguacuten mensaje informativo al usuario acerca de la nueva informacioacuten disponible Ofreceraacuten

aglutinada toda la informacioacuten recuperada de las diversas fuentes a las que esteacute subscrito el

usuario evitando de esa manera la consulta individual de cada una de ellas Un ejemplo de

presentacioacuten de los contenidos recuperados por un agregador popular puede verse en la

figura 28

9 RSS es acroacutenimo de ldquoReally Simple Syndicationrdquo o Sindicacioacuten Realmente Simple [Winer 2005] Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI3 del Anexo I 10 Atom es otra tecnologiacutea para distribuir y actualizar contenidos Para maacutes informacioacuten acerca de este lenguaje consultar el apartado AI4 del Anexo I

27

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 28 Aspecto tiacutepico de un agregador de contenidos Fuente httpfeedreadercom

Existen tambieacuten agregadores en liacutenea como el proporcionado por Feedster11 que

proporcionan al usuario una serie de herramientas para agregar y modificar fuentes de

informacioacuten con muacuteltiples opciones de personalizacioacuten

Debido al auge de estos formatos de informacioacuten el nuacutemero de fuentes disponibles

en la Web se ha multiplicado raacutepidamente soacutelo en Feedster [Feedster 2005] a septiembre de

2005 se encuentran indexadas maacutes de 10 millones de ellas Un usuario tiacutepico puede desear

subscribirse a cientos de estas fuentes asiacute que aunque los agregadores tiacutepicos solucionan

parcialmente el problema automatizando las consultas y aglutinando todos los contenidos

recientes en un mismo lugar este usuario puede llegar a sobrecargarse de informacioacuten De

esta manera normalmente el usuario seleccionaraacute algunos contenidos que le resulten

interesantes dejando de escoger maacutes informacioacuten cuando su demanda se vea satisfecha o

cuando se encuentre cansado de buscar sin llegar a cubrir su demanda informativa Por ello

en muchos casos resultaraacute interesante disponer de un mecanismo automaacutetico de seleccioacuten

de contenidos por el cual se le recomiende al usuario aquella informacioacuten que el sistema

puntuacutee como interesante en base a sus intereses particulares

11 httpmyfeedstercomloginphp

28

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Nuestro enfoque en la tesis estaacute encaminado en este sentido el de un agregador

inteligente de contenidos que ordene la informacioacuten recuperada al usuario seguacuten sus

intereses Para ello se necesitaraacute alguacuten tipo de marcaje sintaacutectico que indique la relevancia

de diferentes partes del texto por ejemplo el tiacutetulo y el resumen del contenido

caracteriacutesticas que poseen lenguajes del tipo RSS o Atom

233 Sistemas de recomendacioacuten

En Internet existe una gran cantidad de sitios especializados que ofertan millones de

productos y servicios para su consumo Eacuteste hecho puede resultar un importante

inconveniente cuando se desea realizar una adquisicioacuten eligiendo entre todas las opciones

existentes Los sistemas de recomendacioacuten surgen como solucioacuten a este problema asiacute ldquoun

sistema de recomendacioacuten recibe informacioacuten del usuario acerca de productos yo

servicios en los que el usuario se encuentra interesado y le recomienda aqueacutellos cercanos a

sus necesidadesrdquo [Garciacutea 2002] ldquoLa recomendacioacuten puede entenderse tambieacuten como un

proceso de filtrado en el que se deja pasar por el filtro uacutenicamente los contenidos

relevantes para cada usuario en concretordquo [Serradilla 2005]

Los sistemas de recomendacioacuten han evolucionado raacutepidamente dentro del entorno

interactivo de la Web especialmente en el sector del comercio electroacutenico donde pueden

albergarse inmensas bases de datos con productos ofreciendo soporte y atencioacuten a gran

cantidad de usuarios cada uno de ellos con un perfil determinado En este sentido Schafer

et al [Schafer 2001] considera una taxonomiacutea de sistemas de recomendacioacuten basada en

tres categoriacuteas atendiendo a las funcionalidades de entradas y salidas a los meacutetodos de

recomendacioacuten y al resto de aspectos del disentildeo

Garciacutea y Gil [Garciacutea 2002] describen un sistema de recomendacioacuten basado en

agentes adaptativos que integra la personalizacioacuten de las recomendaciones al usuario a la

vez que la estrategia comercial del sitio web El sistema de recomendacioacuten implementa una

arquitectura propia de comercio electroacutenico denominada e-CoUSAL [Garciacutea et al 2002]

Un ejemplo de sistema de recomendacioacuten es el proyecto SIRLE [SIRLE 2003] que

recomienda lecturas de libros en espantildeol basaacutendose en la correlacioacuten entre los perfiles de

los usuarios es decir busca similitudes entre las preferencias de distintos usuarios Los

usuarios se representan como vectores en los que cada componente contendraacute la

valoracioacuten de un objeto particular por parte de dicho usuario Seguacuten [Serradilla 2005] este

29

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

proceso responde a la natural tendencia humana de recomendacioacuten de objetos entre

amigos

En [Merelo et al 2004] se propone un sistema para recomendar a los lectores de un

weblog otros weblogs12 con temas relacionados partiendo del resultado de una encuesta

empleando para ello reglas de asociacioacuten Lo que se intenta es buscar condiciones del tipo

atributo-valor que ocurren frecuentemente en un conjunto de datos El sistema considera

un conjunto de atributos compuestos por las URLs de los weblogs y una base de datos de

encuestas donde se indicaraacute si un usuario ha leiacutedo o no cada weblog

En [Mizzaro 2002] se emplean teacutecnicas de personalizacioacuten para implementar

sistemas de acceso a publicaciones electroacutenicas Para ello distinguen entre personalizacioacuten

persistente y personalizacioacuten efiacutemera describiendo coacutemo ambas pueden aplicarse en el

filtrado de informacioacuten y en sistemas de recuperacioacuten a traveacutes de un portal Web

especializado

Para ayudar a los usuarios a encontrar documentos en la Web que sean relevantes a

sus necesidades particulares [Chaffee 2000] considera una vista del mundo para cada

usuario Crea un perfil de usuario analizando las paacuteginas Web que eacuteste visita y asiacute puede

suministrar la informacioacuten clasificada individualmente proporcionando un orden

personalizado de conceptos para navegar por la Web El sistema se construye utilizando las

caracteriacutesticas de un sitio particular creado mediante el sistema denominado OBIWAN

[OBIWAN 1999] que permite a los usuarios explorar muacuteltiples sitios utilizando la misma

jerarquiacutea de navegacioacuten Un ejemplo de este sistema puede verse en la figura 27

[Middleton 2001] presenta un sistema de recomendacioacuten denominado Quickstep

para encontrar artiacuteculos cientiacuteficos y de investigacioacuten Para adquirir las preferencias del

usuario se monitoriza su comportamiento al navegar por la Web empleando teacutecnicas de

aprendizaje automaacutetico asociadas a una representacioacuten ontoloacutegica

Esta tesis tambieacuten tiene un enfoque como sistema de recomendacioacuten En este

sentido se monitorizaraacuten las acciones del usuario para adquirir sus preferencias se

clasificaraacute la informacioacuten recuperada y se le ofreceraacute ordenada Sin embargo el anaacutelisis del

comportamiento del usuario al navegar por la Web se restringiraacute al conjunto de

informacioacuten recomendado por el sistema

12 Losrdquo weblogsrdquo son sitios web que suelen actualizarse varias veces al diacutea en los que uno o varios autores publican sus opiniones sobre temas de actualidad

30

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Figura 27 Ejemplo del sistema OBIWAN [OBIWAN 1999] utilizado por [Chaffee 2000] Fuente

httpwwwittckueduobiwan

24 Resumen

En este capiacutetulo se han visto varias definiciones del concepto de ldquorecuperacioacuten de

informacioacutenrdquo y de los sistemas de recuperacioacuten de informacioacuten

Se han expuesto varias propuestas de clasificacioacuten de los modelos para la

recuperacioacuten de la informacioacuten para posteriormente analizar en detalle el modelo vectorial

y el modelo probabiliacutestico El modelo vectorial hace la suposicioacuten baacutesica de que la

proximidad relativa entre dos vectores es proporcional a la distancia semaacutentica de los

documentos Dentro de este modelo se han analizado diferentes foacutermulas para medir la

similitud entre documentos y consultas destacando la medida de similitud del coseno

ampliamente utilizada

Se ha abordado tambieacuten la realimentacioacuten de la relevancia por parte de un usuario

para mejorar los resultados de las consultas y la agrupacioacuten o ldquoclusteringrdquo de documentos

para organizar a eacutestos en clases que puede realizarse aplicando medidas de similitud entre

pares de documentos

31

LOS SISTEMAS DE RECUPERACIOacuteN DE INFORMACIOacuteN

Para construir los vectores asociados a los documentos se necesita un proceso de

indexado de eacutestos extrayendo los teacuterminos que los componen y asignando pesos a esos

teacuterminos Asiacute para obtener la relevancia de un teacutermino se puede hacer uso de la ley de Zipf

Se exponen tambieacuten estrategias para sustituir las frecuencias absolutas de los teacuterminos en

un documento por frecuencias relativas como la frecuencia de documento inversa o el

valor de discriminacioacuten

El modelo probabiliacutestico se diferencia principalmente en la forma de calcular los

pesos de los teacuterminos en los documentos y en las consultas que en este caso se basa en los

valores de una tabla de contingencias

Se ha dedicado tambieacuten bastante atencioacuten a la Web como sistema de recuperacioacuten

de informacioacuten diferenciando sus caracteriacutesticas singulares que nos obligan a considerar

meacutetodos de recuperacioacuten de informacioacuten alternativos Algunas herramientas de buacutesqueda

de informacioacuten en la Web son los buscadores los directorios y los multibuscadores Otros

sistemas de buacutesqueda en la Web intentan aprovechar su estructura hipertextual empleando

lenguajes especiacuteficos buacutesqueda dinaacutemica o agentes de software

Por otra parte debido a la gran cantidad de informacioacuten y de objetos de consumo

disponibles en la Web aparecen sistemas de recomendacioacuten que se encargan de filtrar la

informacioacuten recuperada dejando pasar uacutenicamente los contenidos u objetos relevantes

para cada usuario Podemos encontrarnos con sistemas de recomendacioacuten orientados al

comercio electroacutenico otros que recomiendan lecturas de libros weblogs publicaciones

electroacutenicas artiacuteculos cientiacuteficos y otros muchos enfoques

Por uacuteltimo se han comentado los agregadores de contenidos que recogen

informacioacuten de diversas fuentes de la Web permitiendo la consulta simultaacutenea de muchas

paacuteginas y aglutinando toda esa informacioacuten en un mismo lugar El auge de los lenguajes de

marcado sintaacutectico como RSS o Atom han fomentado la aparicioacuten de grandes cantidades

de informacioacuten que se actualizan continuamente Este volumen elevado de contenidos

deberaacute gestionarse de manera inteligente para evitar la sobrecarga informativa del usuario

La liacutenea de trabajo de esta tesis se orientaraacute al disentildeo de un sistema de

recomendacioacuten Se recuperaraacute y puntuaraacute el contenido de diversas fuentes de informacioacuten

para seleccionar automaacuteticamente la informacioacuten maacutes relevante a cada usuario Asiacute el

sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador inteligente de contenidos

utilizando el modelo del espacio vectorial que recomendaraacute informacioacuten al usuario una

especie de hiacutebrido entre los sistemas de recomendacioacuten y los agregadores tiacutepicos

32

Capiacutetulo 3

EVALUACIOacuteN DE LOS SISTEMAS RI

Paralelamente al desarrollo de la tecnologiacutea de RI ha surgido un aacuterea de trabajo dedicada

expresamente a establecer medidas para valorar su efectividad Existen evaluaciones

basadas en la relevancia de los documentos otras basadas en los usuarios y un tercer

conjunto de medidas alternativas que evitan realizar juicios de relevancia

Con objeto de sentar las bases necesarias para valorar el funcionamiento del sistema

NectaRSS se repasaraacuten las teacutecnicas empleadas habitualmente en la evaluacioacuten de los

sistemas RI distinguiendo en primer lugar entre relevancia y pertinencia para

posteriormente exponer los meacutetodos tradicionales donde se emplean medidas basadas en la

relevancia tales como la exhaustividad la precisioacuten y la R-Precisioacuten utilizada para

comparar el rendimiento de dos algoritmos Por uacuteltimo se presentaraacuten una serie de

medidas alternativas como la exhaustividad y precisioacuten normalizadas el ratio de

deslizamiento y la medida de Voiskunskii

31 Relevancia y Pertinencia

Es necesario definir con certeza cuando un documento es relevante porque esto marcaraacute en

gran medida los resultados de un proceso de evaluacioacuten Asiacute el teacutermino relevancia seguacuten

[RAE 2003] es ldquocualidad o condicioacuten de relevante importancia significacioacutenrdquo y el

teacutermino relevante se define como ldquoimportante o significativordquo y ldquosobresaliente o destacadordquo

Podemos entender entonces que un documento recuperado se consideraraacute relevante

cuando su contenido posea alguna importancia o significacioacuten en relacioacuten con la necesidad

de informacioacuten del usuario

Auacuten conociendo de manera concisa el significado del teacutermino pueden surgir

problemas a la hora de determinar con exactitud cuaacutendo un documento puede considerarse

como relevante o no

El mismo documento puede ser considerado como relevante por una persona e

irrelevante por otra en funcioacuten de la necesidad de informacioacuten que posean ambas

33

EVALUACIOacuteN DE LOS SISTEMAS RI

Incluso el mismo documento puede resultar relevante o no a la misma persona en

momentos diferentes [Lancaster 1993]

Es difiacutecil definir criterios a priori para determinar cuaacutendo es relevante un

documento ldquoresulta maacutes faacutecil proceder a la determinacioacuten de la relevancia que

explicar coacutemo se ha llevado a cabordquo [Blair 1990] Se considera ademaacutes que ldquoel

concepto de relevancia estaacute afectado de gran dosis de subjetividad y puede ser

explicado de muacuteltiples maneras por distintas personasrdquo [Blair 1990]

Es posible que los documentos resulten relevantes en alguno de sus apartados con

una materia determinada pero no en el resto de sus contenidos Esta relevancia

parcial no se mediraacute solamente en teacuterminos binarios (siacuteno) sino que podraacute

adquirir muchos valores intermedios necesitando por tanto una funcioacuten continua

en lugar de una funcioacuten binaria

Estos problemas condicionan la viabilidad de la relevancia como criterio en la

evaluacioacuten de la recuperacioacuten de informacioacuten Asiacute podemos considerar la idea de la

ldquoutilidad de un documentordquo es decir ldquosi el documento le va a resultar uacutetil o no a un

usuariordquo [Cooper 1973] La ventaja de este punto de vista es que un usuario puede tener

problemas para definir queacute es relevante y queacute no lo es pero tendraacute pocos problemas para

decidir si un documento le resulta uacutetil o no

Lancaster considera que la relevancia de un documento estaraacute relacionada con la

satisfaccioacuten del usuario ante una necesidad de informacioacuten y ante la ldquoutilidadrdquo que estos

contenidos van a tener para eacutel y opina que en este caso es mejor hacer uso de la palabra

ldquopertinenciardquo [Lancaster 1993] Es decir relevancia quedaraacute asociada con el hecho de

relacionar los contenidos de un documento con un tema determinado y pertinencia se

relacionaraacute con la utilidad de un documento recuperado respecto a una necesidad de

informacioacuten individual De esta manera para Salton ldquoel conjunto pertinente de

documentos recuperados se puede definir como el subconjunto de documentos apropiado

para la necesidad de informacioacuten del usuariordquo [Salton 1983]

Seguacuten [RAE 2003] ldquopertinenciardquo significa ldquocualidad de pertinenterdquo entendiendo

como ldquopertinenterdquo lo ldquoque viene a propoacutesitordquo o resulta oportuno Podremos entonces

decir que un documento seraacute pertinente para un usuario cuando le resulte oportuno

proporcionaacutendole informacioacuten para alguacuten propoacutesito

Asumiremos por tanto que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten de esta

34

EVALUACIOacuteN DE LOS SISTEMAS RI

manera cuando hablemos de relevancia se puede hablar de pertinencia refirieacutendonos al punto

de vista del usuario que realiza la operacioacuten de recuperar informacioacuten

32 Meacutetodos tradicionales de evaluacioacuten de SRI

La evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten puede enfocarse desde dos

puntos de vista por una parte se tendraacuten una serie de medidas orientadas a analizar el

acceso fiacutesico a los datos y por otra existen medidas que pretenden analizar la pertinencia o

no del contenido

Para responder a la pregunta de queacute evaluar en los SRI hacemos referencia al trabajo

de Rijsbergen [Rijsbergen 1979] que presenta las seis medidas de Cleverdon [Cleverdon et

al 1966] ldquola cobertura de una coleccioacuten el tiempo de respuesta del sistema a una peticioacuten

la forma de presentacioacuten de los resultados el esfuerzo realizado por el usuario la

exhaustividad del sistema y su precisioacutenrdquo Seguacuten el autor las cuatro primeras medidas son

faacutecilmente estimables e intuitivas y las dos uacuteltimas la exhaustividad y la precisioacuten son las que

mediraacuten verdaderamente la efectividad del sistema

Otro autor Chowdhury recoge las medidas anteriores y propone seis medidas

divididas en dos grupos el primer grupo formado por la cobertura la exhaustividad y el

tiempo de respuesta del sistema y el segundo grupo formado por la precisioacuten la usabilidad y

la presentacioacuten [Chowdhury 1999]

Salton utiliza el conjunto de medidas de Cleverdon manifestando sus dudas sobre

el caacutelculo de la precisioacuten y la exhaustividad [Salton 1983] Meadow sintetiza todas las medidas

en tres grupos las basadas en la relevancia las medidas del proceso y las medidas del

resultado [Meadow 1993] Estas medidas se muestran en las tablas 31 32 y 33 siguientes

Medidas basadas en la Relevancia

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el total

de documentos relevantes

Promedio de la

efectividad E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Tabla 31 Resumen de medidas basadas en la relevancia de los documentos recuperados Fuente

[Meadow1993]

35

EVALUACIOacuteN DE LOS SISTEMAS RI

Medidas basadas en el Proceso

Seleccioacuten Mide cuaacutentos documentos hay en la base de datos y el

grado de solapamiento con otras relacionadas

Contenido Tipo de documentos de la base de datos temaacutetica de los

documentos frecuencia de actualizacioacuten

Traduccioacuten de una consulta Si el usuario puede plantear la consulta directamente o

precisa intermediacioacuten

Errores en el establecimiento de la

consulta

Media de errores sintaacutecticos en la escritura de la

buacutesqueda que propician la recuperacioacuten de conjuntos

vaciacuteos y erroacuteneos

Tiempo medio de realizacioacuten de la

buacutesqueda

Tiempo medio de realizacioacuten de una estrategia de

buacutesqueda

Dificultad en la realizacioacuten de la

buacutesqueda

Problemas que los usuarios inexpertos se pueden

encontrar

Nuacutemero de comandos precisos para una

buacutesqueda

Promedio de instrucciones necesarias para realizar una

buacutesqueda

Coste de la buacutesqueda Costes directos e indirectos en su realizacioacuten

Nordm de documentos recuperados Extensioacuten del resultado de una buacutesqueda

Nordm de documentos revisados por el

usuario

Promedio de documentos que los usuarios estaacuten

dispuestos a revisar

Tabla 32 Resumen de medidas basadas en la evaluacioacuten de los procesos Fuente [Meadow 1993]

Medidas de resultado

Precisioacuten Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos recuperados

Exhaustividad Nuacutemero de documentos relevantes recuperados dividido entre el

total de documentos relevantes

Promedio de la efectividad

E-P

Promedios de la efectividad en pares de valores de exhaustividad y

precisioacuten

Medidas promedio de la

satisfaccioacuten del usuario

Medidas que pretenden cuantificar la reaccioacuten de los usuarios ante

el resultado de una buacutesqueda

Tabla 33 Resumen de medidas basadas en el resultado obtenido Fuente [Meadow 1993]

El conjunto de medidas basadas en la relevancia es el que se considera maacutes

importante las medidas basadas en el proceso sirven para diferenciar unos sistemas de

otros basaacutendose en las prestaciones de la aplicacioacuten informaacutetica y no permiten evaluar

36

EVALUACIOacuteN DE LOS SISTEMAS RI

aspectos relacionados con el contenido de los documentos El tercer grupo de medidas las

basadas en el resultado estaacuten muy relacionadas con las basadas en la relevancia

introduciendo algunos aspectos diferenciadores

321 Medidas basadas en la relevancia

Despueacutes de realizar una operacioacuten de recuperacioacuten de informacioacuten un usuario obtendraacute un

conjunto de documentos En este conjunto recuperado se distinguiraacute un subconjunto de

documentos relevantes respecto a la necesidad de informacioacuten del usuario y otro

subconjunto de documentos no relevantes respecto a tal necesidad Ademaacutes normalmente

este usuario dejaraacute de recuperar cierto conjunto de documentos relevantes y cierto

conjunto de documentos no relevantes con el tema buscado En la figura 31 se representan

estos subconjuntos observaacutendose la inclusioacuten del subconjunto de documentos recuperados

en el conjunto formado por la totalidad de documentos

documentos relevantes A

documentos no relevantes notA

documentos recuperados relevantes

A cap B

documentos recuperados no relevantes

notA cap B

Figura 31 Subconjuntos de documentos considerados en una operacioacuten de recuperacioacuten de informacioacuten El

color maacutes oscuro indica el subconjunto B de documentos recuperados

Rijsbergen considera esta serie de subconjuntos resultantes de una operacioacuten de

buacutesqueda y los muestra en una Tabla de Contingencia como puede verse en la tabla 34 en

donde A representa el conjunto de documentos relevantes B representa el conjunto de

37

EVALUACIOacuteN DE LOS SISTEMAS RI

documentos recuperados notA representa el conjunto de documentos no relevantes y notB

representa el conjunto de documentos no recuperados

RELEVANTES NO RELEVANTES

RECUPERADOS A cap B notA cap B B

NO RECUPERADOS A cap notB notA cap notB notB

A notA

Tabla 34 Tabla de contingencia de Rijsbergen [Rijsbergen 1979]

Esta Tabla de Contingencia que ademaacutes se puede encontrar en trabajos de otros

autores [Korfhage 1997] [Chowdhury 1999] [Meadow 1993] y [Frants 1997] serviraacute

como base para realizar una definicioacuten de las medidas de exhaustividad precisioacuten y de la tasa de

fallo [Rijsbergen 1979] tal y como se muestra en la tabla 35

Precisioacuten |B|

|BA| cap

Exhaustividad |A|

|BA| cap

Tasa de Fallo |A|

|BA|notcapnot

Tabla 35 Foacutermulas de la Precisioacuten Exhaustividad y Tasa de Fallo [Rijsbergen 1979]

La precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes

con el tema y se calcularaacute dividiendo el nuacutemero total de documentos relevantes

recuperados entre el total de documentos recuperados

La exhaustividad se calcularaacute dividiendo el nuacutemero de documentos relevantes

recuperados entre el nuacutemero total de documentos relevantes Este denominador seraacute muy

difiacutecil conocerlo de antemano como mucho se puede inferir un nuacutemero aproximado pero

no se podraacute afirmar esa cantidad con total seguridad

La tasa de fallo representaraacute el porcentaje de documentos recuperados no relevantes

respecto al total de documentos no relevantes de la base de datos Esta medida cobraraacute maacutes

38

EVALUACIOacuteN DE LOS SISTEMAS RI

importancia cuando la precisioacuten esteacute sujeta a variaciones en el contenido de la base de datos

Se observa que la tasa de fallo no depende tanto de dichas variaciones ldquolos cambios en la

generalidad de una coleccioacuten afectan menos a la tasa de fallo que a la precisioacuten que resulta maacutes

sensiblerdquo [Salton 1983] Salton hace referencia a una nueva medida la generalidad o ldquoel

grado de documentos relevantes contenidos en una coleccioacutenrdquo Una coleccioacuten con un alto

grado de generalidad tendraacute una mayoriacutea de documentos relevantes

Las medidas anteriores se encuentran relacionadas entre si de tal manera que ldquola

precisioacuten podraacute definirse en funcioacuten de las tres restantesrdquo [Salton 1983] tal y como aparece

en la siguiente expresioacuten

)G1(F)GE()GE(Pminus+sdot

sdot= (31)

en donde P= precisioacuten E= exhaustividad G= generalidad y F= tasa de fallo

Cuanto mayor sea el valor de la precisioacuten menor resultaraacute el valor de la exhaustividad

asiacute que estas dos medidas tenderaacuten a relacionarse de forma inversa Esto puede observarse

en un graacutefico precisioacuten-exhaustividad donde cada uno de los paraacutemetros se coloca en un eje

Un ejemplo tiacutepico de este tipo de graacutefico puede verse en la figura 32 tomada de

[Rijsbergen 1979] El graacutefico muestra que los dos paraacutemetros estaacuten inversamente

relacionados

Figura 32 Ejemplo graacutefico de la relacioacuten inversa entre precisioacuten y exhaustividad Fuente [Rijsbergen 1979]

39

EVALUACIOacuteN DE LOS SISTEMAS RI

Sin embargo seguacuten Korfhage ldquono estaacute claro que la exhaustividad y la precisioacuten sean

medidas significativas para el usuariordquo [Korfhage 1997] De hecho la mayoriacutea de los

usuarios tienden a considerar mucho maacutes importante la precisioacuten relegando la exhaustividad a

un plano secundario si una buacutesqueda proporciona informacioacuten relevante en relacioacuten con la

necesidad informativa del usuario dicho usuario no se detiene a reflexionar sobre la

cantidad de documentos relevantes que no recupera Este razonamiento no se podraacute

considerar como regla general porque en ciertos aacutembitos como por ejemplo el juriacutedico si

que se querraacute estar en posesioacuten de todos los documentos relevantes que existan es decir se

buscaraacute una gran exhaustividad

322 Medidas orientadas al usuario

Las medidas basadas en la relevancia estaacuten muy relacionadas con el usuario que efectuacutea la

evaluacioacuten y son difiacuteciles de trasladar a otras personas ldquose basan en el supuesto de que el

conjunto de documentos relevantes para una respuesta es siempre el mismo

independientemente del usuario que lleva a cabo la evaluacioacutenrdquo [Baeza 1999] Pero la

realidad es que diferentes usuarios podraacuten interpretar desigualmente queacute documentos son

relevantes y cuales no

Por ello diferentes autores presentan nuevas medidas partiendo del supuesto de

que los usuarios forman un grupo homogeacuteneo con similar respuesta al determinar la

relevancia del resultado de una operacioacuten de buacutesqueda [Salton 1983] [Korfhage 1997] y

[Baeza 1999] Korfhage enumera estas medidas propuestas por Keen al principio de los

antildeos setenta [Korfhage 1997] Se distinguen tres comunes

Cobertura que seraacute la proporcioacuten de los documentos relevantes conocidos que el

usuario ha recuperado

Novedad que seraacute la proporcioacuten de los documentos recuperados relevantes que eran

previamente desconocidos para el usuario

Exhaustividad relativa que seraacute la ratio de los documentos relevantes recuperados

examinados por el usuario entre el nuacutemero de documentos que el usuario estaacute

dispuesto a examinar

40

EVALUACIOacuteN DE LOS SISTEMAS RI

Asiacute un valor alto de cobertura significaraacute que se han encontrado la mayoriacutea de

documentos relevantes que el usuario esperaba encontrar y un valor alto de novedad

indicaraacute que se ha recuperado una gran cantidad de documentos que el usuario desconociacutea

Una cuarta medida orientada al usuario es el esfuerzo de exhaustividad que seraacute la ratio

entre el nuacutemero de documentos relevantes que el usuario espera encontrar y el nuacutemero de

documentos examinados al intentar encontrar esos documentos relevantes Para ello se

parte del supuesto ldquola coleccioacuten contiene el nuacutemero deseado de documentos relevantes y

el sistema permite al usuario localizar todosrdquo [Korfhage 1997]

323 Caacutelculo de la Exhaustividad y la Precisioacuten

Seguacuten Blair la precisioacuten puede calcularse con facilidad sin embargo la exhaustividad se

presenta inviable su valor ldquosolamente puede ser estimadordquo [Blair 1990] Este autor elaboroacute

una revisioacuten de los distintos meacutetodos utilizados para estimar dicho valor y que

enumeraremos a continuacioacuten

Un meacutetodo que resultoacute de gran aceptacioacuten consiste en limitar el tamantildeo de la base

de datos y calcular entonces el valor de la exhaustividad una vez analizados todos los

documentos Sin embargo seguacuten Resnikoff [Resnikoff 1976] ldquolas pruebas a pequentildea

escala no dicen mucho sobre el rendimiento de un SRI o sobre las estrategias oacuteptimas de

recuperacioacuten para sistemas del mismo tipo pero mayores en tamantildeordquo

Otro procedimiento para calcular la exhaustividad consiste en asignar a varias

personas la tarea de analizar los documentos recuperados Este procedimiento resulta

complejo y costoso Ademaacutes contradice el sentido de la pertinencia de un documento para el

usuario que realiza una buacutesqueda dado que dos personas distintas emitiraacuten distintos juicios

de valor y lo que sea interesante para una puede no serlo para la otra

Una idea diferente es calcular la exhaustividad a partir de una muestra aleatoria de la

coleccioacuten de documentos El usuario evaluaraacute la pertinencia de los mismos y luego se

estimaraacute el nuacutemero de documentos uacutetiles de la coleccioacuten empleando teacutecnicas estadiacutesticas

El principal problema de este meacutetodo es determinar el tamantildeo de la muestra Asiacute Tague

[Tague 1994] avisa acerca de la dificultad para realizar esta tarea en bases de datos con muy

bajo porcentaje de documentos relevantes ya que en este caso el tamantildeo de la muestra

deberiacutea ser muy grande lo que complica el anaacutelisis

41

EVALUACIOacuteN DE LOS SISTEMAS RI

Salton apostoacute por calcular los valores de exhaustividad y precisioacuten sobre una muestra

de documentos de la coleccioacuten total [Salton 1983] Este autor afirma con actitud positivista

que no existen evidencias contrarias a que los resultados de este anaacutelisis puedan trasladarse

sin problemas a una base de datos global y por ello sugiere que puede hacerse

Un ejemplo de caacutelculo de la exhaustividad y la precisioacuten sobre una muestra pequentildea de

una coleccioacuten de documentos se expondraacute a continuacioacuten Primero suponemos que se elige

una muestra constituida por los primeros siete documentos (d1 d2hellip d7) en la que

resultan relevantes los documentos d1 d3 d4 d7 Siguiendo el meacutetodo de Salton los

valores calculados para la exhaustividad y la precisioacuten son los siguientes

Relevante E P

d1 X 025 1

d2 X 05 1

d3 05 066

d4 X 075 075

d5 075 06

d6 075 05

d7 X 1 057

Tabla 36 Ejemplo de caacutelculo de la exhaustividad y la precisioacuten seguacuten Salton en una muestra de 7 documentos

Seguacuten Salton los caacutelculos del par exhaustividad-precisioacuten (E-P en adelante) deben

realizarse documento a documento Asiacute para el primer documento d1 se ha recuperado un

uacutenico documento pertinente la precisioacuten debe valer uno (un documento relevante para un

documento recuperado) y la exhaustividad debe valer 025 (un documento relevante entre el

total de documentos relevantes)

Para d2 la precisioacuten resultaraacute de dividir el valor de dos documentos relevantes

recuperados entre el total de documentos recuperados hasta el momento que tambieacuten son

dos por ello su valor seraacute uno nuevamente La exhaustividad valdraacute ahora 05 al dividir el

nuacutemero de dos documentos relevantes recuperados entre el total de cuatro documentos

relevantes Siguiendo este meacutetodo se determina el resto de pares E-P y se puede construir

un graacutefico como el que se muestra en la figura 33

42

EVALUACIOacuteN DE LOS SISTEMAS RI

Pares de valores exhaustividad-precisioacuten

0

01

02

03

04

05

06

07

08

09

1

d1 d2 d3 d4 d5 d6 d7

Val

or

Exhaustividad Precisioacuten

Figura 33 Representacioacuten graacutefica de los pares de valores E-P del ejemplo de caacutelculo de la exhaustividad y la

precisioacuten seguacuten Salton tomados de la tabla 36

Este tipo de graacutefico ha sido duramente criticado por considerase que no refleja

claramente ldquoel tamantildeo del conjunto de documentos recuperados y el tamantildeo de la

coleccioacutenrdquo [Salton 1983]

Ademaacutes en el graacutefico se muestra una sucesioacuten discreta de valores E-P en vez de

una sucesioacuten continua de los mismos Asiacute por ejemplo no se indica queacute valor de precisioacuten

corresponde a un valor de exhaustividad de 05 ya que el mismo variacutea desde el valor inicial

de 1 hasta el de 066

324 Medidas promedio exhaustividad-precisioacuten

Buscando solucionar los problemas anteriores Salton propuso el caacutelculo de los pares de

medidas E-P en teacuterminos de promedio ldquoel promedio que el usuario puede esperar de la

realizacioacuten de buacutesquedas por parte del sistema puede ser calculado tomando la media

aritmeacutetica sobre un nuacutemero de N buacutesquedas de la exhaustividad y de la precisioacuten individuales

43

EVALUACIOacuteN DE LOS SISTEMAS RI

de cada una de ellasrdquo Seguacuten esta propuesta la formulacioacuten de las medidas promedio E-P

seraacute

sum= +

=N

1i ii

i

)NoRecRel(DRecRel(D)RecRel(D)

N1)D(dadExhaustivi (32)

sum= +

=N

1i ii

i

)RecNoRel(DRecRel(D)RecRel(D)

N1(D) Precisioacuten (33)

en donde RecRel(D) seraacuten los documentos recuperados relevantes NoRecRel(D)

seraacuten los documentos no recuperados relevantes y RecNoRel(D) seraacuten los documentos

recuperados no relevantes siendo D el conjunto de documentos

A partir de las foacutermulas (32) y (33) se puede representar una curva E-P con valores

diferentes de exhaustividad para cada valor de la precisioacuten Esta funcioacuten seraacute continua en vez

de discreta y coincidiraacute con la curva propuesta por Rijsbergen [Rijsbergen 1979] En la

figura 34 puede observarse una representacioacuten de este tipo correspondiente a los pares de

valores E-P del ejemplo A este meacutetodo de caacutelculo de los valores E-P se le llama tambieacuten

como caacutelculo de exhaustividad y precisioacuten relativa entendieacutendose estas medias como

aproximaciones a los verdaderos valores de ambos ratios Esta forma de representar la

relacioacuten de los pares de valores E-P resultaraacute tambieacuten vaacutelida cuando se realiza una uacutenica

buacutesqueda

Korfhage propone dos meacutetodos distintos para calcular el promedio de la

exhaustividad y la precisioacuten El primero parte del supuesto de que se conocen a priori los

documentos relevantes para cada conjunto de preguntas Se supone ademaacutes que cada

pregunta no se realiza hasta que sea satisfecha determinada condicioacuten como por ejemplo

recuperar un nuacutemero determinado de documentos Entonces se miden la exhaustividad y la

precisioacuten obteniendo un par de valores para cada pregunta Finalmente se puede construir

una tabla E-P aumentando en valor de 01 ambas medidas [Korfhage 1997]

El otro meacutetodo consiste en calcular los promedios de la precisioacuten para un conjunto

de tres o de once valores previamente establecidos de la exhaustividad Estas dos teacutecnicas se

conocen como ldquopromedio en tres puntosrdquo y ldquopromedio en once puntosrdquo

44

EVALUACIOacuteN DE LOS SISTEMAS RI

Graacutefico E-P

0

01

02

03

04

05

06

07

08

09

1

11

0 01 02 03 04 05 06 07 08 09 1 11 12

Exhaustividad

Prec

isioacute

n

Figura 34 Representacioacuten graacutefica de los pares de valores E-P del ejemplo descrito en la seccioacuten 323 junto

con la curva propuesta por Rijsbergen en [Rijsbergen 1979] en color rojo

325 Valores sumarios simples

Seguacuten [Baeza 1999] en ciertas situaciones se desea comparar el rendimiento en la

recuperacioacuten de varios algoritmos para consultas individuales Primero porque la precisioacuten

media sobre varias consultas puede disfrazar importantes anormalidades de los algoritmos

en estudio y segundo porque cuando comparamos dos algoritmos podemos estar

interesados en investigar si uno de ellos funciona mejor para cada consulta en un conjunto

dado de consultas En estas situaciones se puede utilizar un valor simple de precisioacuten que

podraacute interpretarse como un resumen de la correspondiente curva precisioacuten-exhaustividad

Normalmente este valor simple se tomaraacute como la precisioacuten en un nivel determinado de

exhaustividad

3251 Precisioacuten media al observar documentos relevantes

Se obtendraacute un valor sumario simple para un conjunto de documentos ofrecidos en orden

de relevancia calculando la media de los valores de precisioacuten obtenidos despueacutes de cada

aparicioacuten de un documento relevante Por ejemplo si los valores de precisioacuten al ir

observando 5 documentos relevantes son 1 06 05 04 y 03 entonces la precisioacuten media

45

EVALUACIOacuteN DE LOS SISTEMAS RI

seraacute (1+06+05+04+03)5 es decir 056 Esta medida favoreceraacute a los sistemas que

recuperen documentos relevantes raacutepidamente Algunos algoritmos pueden obtener un alto

valor de precisioacuten media al observar documentos relevantes y sin embargo tener un valor

pobre de exhaustividad global

3252 La R-Precisioacuten

La idea aquiacute seraacute generar un valor sumario simple para un conjunto de documentos

ofrecidos en orden de relevancia calculando la precisioacuten en la posicioacuten R del orden siendo

R el nuacutemero total de documentos relevantes para la consulta actual Por ejemplo si

consideramos R=10 y existen 4 documentos relevantes entre los diez primeros del orden

entonces se tendraacute una R-Precisioacuten de 04 al dividir los 4 documentos relevantes entre los 10

documentos recuperados Esta medida puede utilizarse para observar el comportamiento

de un algoritmo para cada consulta individual en un experimento Tambieacuten se puede

calcular la R-Precisioacuten media de todas las consultas no obstante utilizar un nuacutemero simple

para resumir todo el comportamiento de un algoritmo de recuperacioacuten a lo largo de

diversas consultas puede resultar impreciso

3253 Histogramas de Precisioacuten

Las medidas de la R-Precisioacuten para varias consultas podraacuten utilizarse para comparar la

historia de recuperacioacuten de dos algoritmos Asiacute considerando a RPA(i) y RPB(i) como el

valor de la R-Precisioacuten para un algoritmo A y un algoritmo B en la consulta i

respectivamente podemos definir la diferencia entre ambos valores como

RPAB(i) = RPA(i) - RPB(i) (34)

Un valor de RPAB(i) igual a cero indicariacutea que ambos algoritmos tienen igual

rendimiento para la consulta i en teacuterminos de la R-Precisioacuten Si RPAB(i) es positivo entonces

indicariacutea un mejor rendimiento para el algoritmo A y si el valor es negativo seriacutea el

algoritmo B el que ofrece mejor rendimiento para la consulta i Estos resultados se pueden

representar en un graacutefico denominado histograma de precisioacuten que permitiraacute comparar

raacutepidamente el rendimiento en la recuperacioacuten de los dos algoritmos mediante una simple

inspeccioacuten visual tal y como se muestra en el ejemplo de la figura 35

46

EVALUACIOacuteN DE LOS SISTEMAS RI

-15

-1

-05

0

05

1

15

1 2 3 4 5 6 7 8 9 10

Consultas

R-P

reci

sioacuten

Figura 35 Histograma de precisioacuten para dos algoritmos diferentes El caacutelculo de los valores se realiza

restando la R-Precisioacuten calculada en diez consultas hipoteacuteticas seguacuten la foacutermula (34) Fuente [Baeza 1999]

33 Otras medidas alternativas

Existe un amplio conjunto de medidas que intentan superar los problemas descritos en la

seccioacuten 323 del caacutelculo de la exhaustividad y la precisioacuten Salton denomina a estas medidas

ldquode valor simplerdquo porque ya no se va a representar el resultado de una evaluacioacuten en

funcioacuten de un par de valores sino de un uacutenico valor [Salton 1983] Para este autor las

medidas alternativas deberiacutean cumplir las siguientes condiciones

Deben ser capaces de reflejar la efectividad de la recuperacioacuten uacutenicamente de

forma separada de otros criterios como el coste

Deben ser independientes de cualquier liacutemite es decir el nuacutemero de documentos

recuperados no debe afectar a estas medidas

Deben ser expresadas en un nuacutemero simple en lugar de utilizar pares de valores

47

EVALUACIOacuteN DE LOS SISTEMAS RI

331 Exhaustividad y precisioacuten normalizadas

Uno de los problemas del uso de las medidas de exhaustividad y precisioacuten proviene de la

lectura secuencial de los resultados de una buacutesqueda ldquolos SRI tiacutepicos muestran los

resultados al usuario formando una secuencia de documentos Incluso en sistemas que no

presentan asiacute la informacioacuten el usuario suele examinar los documentos secuencialmente

Este modo de examinar afectaraacute al juicio que el usuario daraacute sobre la relevancia o no de los

documentos siguientesrdquo [Korfhage 1997]

Otro caso muy comuacuten sucede cuando al realizar una buacutesqueda los primeros

documentos recuperados resultan relevantes con el tema de intereacutes de un usuario Este

usuario tendraacute una sensacioacuten positiva y no se preocuparaacute del nuacutemero de documentos no

relevantes que tambieacuten se hayan recuperado Por el contrario si hay muchos documentos

no relevantes al principio el usuario tendraacute sensacioacuten de frustracioacuten aunque globalmente se

le proporcionen maacutes documentos relevantes que no relevantes Estas reflexiones propician

el desarrollo de medidas que tomen en cuenta la secuencia en que se presentan los

documentos al usuario

En esta liacutenea Rocchio [Rocchio 1966] define la exhaustividad y la precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten y donde el tamantildeo de la muestra analizada no afecta [Rijsbergen 1979]

[Korfhage 1997]

Primero considera un sistema ideal donde los documentos relevantes se recuperan

antes que los documentos no relevantes y representa en un graacutefico la evolucioacuten de la

exhaustividad de esta operacioacuten de recuperacioacuten de informacioacuten Asiacute por ejemplo si se sabe

que en una base de datos con 25 documentos existen cinco de ellos relevantes que han sido

devueltos en las posiciones 3 5 10 11 15 podemos representar la exhaustividad como se

muestra en la figura 36 siguiente

Se observa que al analizar el tercer documento la exhaustividad alcanzaraacute el valor de

02 un documento relevante divido entre el total de cinco documentos relevantes de la

coleccioacuten Cada vez que se analice un documento relevante aumentaraacute el valor de la

exhaustividad hasta llegar a la unidad en el documento 15 En la misma figura se representa

la graacutefica de la mejor buacutesqueda posible si los cinco documentos relevantes estuvieran en

las cinco primeras posiciones de la secuencia y la graacutefica de la peor buacutesqueda posible al

presentarse los cinco documentos relevantes en las cinco uacuteltimas posiciones de la

secuencia

48

EVALUACIOacuteN DE LOS SISTEMAS RI

Figura 36 Ejemplo de exhaustividad normalizada para una buacutesqueda En la misma graacutefica se muestra la mejor

buacutesqueda posible y la peor buacutesqueda posible Fuente [Rijsbergen 1979]

Seguacuten Korfhage ldquoel aacuterea comprendida entre la buacutesqueda actual y la graacutefica ideal

representaraacute una medida de la ejecucioacuten del sistema RIrdquo [Korfhage 1997] Esta medida la

exhaustividad normalizada se calcularaacute restando a la unidad el resultado de dividir el valor de

dicho aacuterea entre (n1 (N - n1)) en donde n1 es el nuacutemero de documentos relevantes y N es

el nuacutemero total de documentos

Para el caacutelculo de la precisioacuten normalizada Rijsbergen propone ldquorestar a la unidad el

resultado de dividir el valor de este aacuterea por el valor del aacuterea existente entre la buacutesqueda

ideal y la peor buacutesquedardquo [Rijsbergen 1979]

332 Ratio de deslizamiento

Esta medida ldquose basa en la comparacioacuten de dos listas ordenadas de documentos

recuperados Una lista es la salida del sistema actual y la otra representa un sistema ideal

donde los documentos recuperados se muestran en orden descendenterdquo [Salton 1983] Se

permite la asignacioacuten de pesos a los documentos en funcioacuten del grado de relevancia con la

pregunta realizada por el usuario La ratio se establece como el resultado de dividir la suma

de los pesos de los documentos recuperados por el sistema real entre la suma de los pesos

de los documentos que hubiera devuelto el sistema ideal

En este modelo se sustituye la asignacioacuten binaria de relevancia de un documento

por la asignacioacuten de un peso La situacioacuten maacutes favorable seriacutea que la buacutesqueda realizada

fuera exacta a la que ofreceriacutea el sistema ideal adquiriendo la ratio de deslizamiento el valor

de uno

49

EVALUACIOacuteN DE LOS SISTEMAS RI

A continuacioacuten veremos un ejemplo propuesto por [Korfhage 1997] Supongamos

que un sistema ha recuperado 10 documentos con los siguientes pesos 70 50 00 25

82 45 37 11 52 y 31 en el orden de recuperacioacuten Con estos pesos se confecciona la

columna ldquoΣ pesos realesrdquo que se muestra en la tabla 37 En un sistema ideal estos

documentos habriacutean sido recuperados y presentados en el orden descendente de pesos

formando la columna ldquoΣ pesos idealesrdquo de dicha tabla

La ratio de deslizamiento se calcula dividiendo cada valor de la columna denominada

ldquoΣ pesos realesrdquo entre el correspondiente valor de la columna ldquoΣ pesos idealesrdquo Asiacute por

ejemplo el resultado de 085 es el resultado de dividir el valor 70 entre el valor 82

Ratio de Deslizamiento

N sum pesos reales sum pesos ideales Deslizamiento

1 70 82 085

2 120 152 079

3 120 204 059

4 145 254 057

5 227 299 076

6 272 336 081

7 309 367 084

8 320 392 082

9 372 403 092

10 403 403 1

Tabla 37 Ejemplo de caacutelculo de la ratio de deslizamiento El Deslizamiento se calcula dividiendo la sumatoria de

pesos reales entre la sumatoria de pesos ideales Fuente [Korfhage 1997]

333 Medida de Voiskunskii

Este autor considera que los criterios para comparar los resultados de una buacutesqueda

ldquodeben proveer una comparacioacuten pragmaacutetica y justificada de los resultados de la buacutesqueda

y la cantidad de trabajo necesaria para determinar la informacioacuten requerida para el

establecimiento de estos criterios debe ser admisiblerdquo [Voiskunskii 1997]

Tradicionalmente se ha empleado la medida de valor simple propuesta por Borko

I1=E+P es decir la suma de los valores de la exhaustividad y la precisioacuten aunque estas dos

medidas no cumplen totalmente los criterios comentados fundamentalmente porque se

50

EVALUACIOacuteN DE LOS SISTEMAS RI

infiere el valor de la exhaustividad Para la medida I1 una buacutesqueda seraacute mejor que otra

cuando mayor sea el valor de la suma Sin embargo esta medida puede conducir a veces a

conclusiones equivocadas Como ejemplo expondremos un caso enunciado por Frants

Shapiro y Voiskunskii ldquosupongamos que sobre una coleccioacuten de 10000 documentos de

los cuales se consideran pertinentes 100 se llevan a cabo tres operaciones de buacutesqueda con

los resultados siguientes

a Se recuperan 100 documentos 50 de ellos son pertinentes y el resto no lo son

b Se recuperan 67 documentos siendo pertinentes 40 de ellos

c Se recupera un solo documento que resulta ser pertinente

Calculando los valores de exhaustividad y de precisioacuten obtendremos los siguientes valores

para la medida I1

Buacutesqueda E P I1

a 05 05 1

b 04 0597 0997

c 001 1 101

Tabla 38 Ejemplo de caacutelculo de la medida I1 de Borko Fuente [Frants 1997]

Interpretando los valores de la tabla la mejor buacutesqueda resultariacutea ser la ldquocrdquo al tener

el valor maacutes alto para I1 [Frants 1997] Sin embargo la buacutesqueda ldquocrdquo difiacutecilmente podraacute

considerarse como la mejor de las tres buacutesquedas para un usuario maacutexime cuando soacutelo se

le proporciona un uacutenico documento por lo que seraacute casi seguro que el usuario preferiraacute

cualquiera de las otras dos buacutesquedas que le entregan maacutes documentos

independientemente del valor matemaacutetico que nos devuelva la foacutermula

Frants Shapiro y Voiskunskii proponen una nueva medida de valor simple para

resolver este problema la medida I2 calculada a partir de la ratio entre el cuadrado de

documentos relevantes recuperados y el nuacutemero de documentos que conforman el

resultado ldquoratio cuya formulacioacuten analiacutetica se corresponde con la raiacutez cuadrada del

producto de los valores E-Prdquo [Voiskunskii 1997] y [Martiacutenez 2004] Si aplicamos esta

medida al anterior ejemplo planteado los resultados seraacuten los reflejados en la tabla 39

51

EVALUACIOacuteN DE LOS SISTEMAS RI

En este caso al analizar los resultados de la tabla se observa que el valor maacutes alto

para I2 corresponde a la buacutesqueda ldquoardquo considerando por tanto dicha buacutesqueda como la

mejor conclusioacuten que resulta maacutes loacutegica y coherente que la anterior

En la praacutectica la medida I1 de Borko y la medida I2 de Voiskunskii suelen coincidir

en sus resultados excepto en casos extraordinarios como el descrito en el ejemplo

Buacutesqueda E P I2

a 05 05 025

b 04 0597 02388

c 001 1 001

Tabla 39 Ejemplo de caacutelculo de la medida I2 de Voiskunskii Fuente [Frants 1997]

34 Resumen

En este capiacutetulo se repasan las teacutecnicas y medidas empleadas en la evaluacioacuten de los

sistemas de Recuperacioacuten de Informacioacuten

Se comienza distinguiendo los conceptos de relevancia y pertinencia siendo relevante

un documento cuando su contenido posea alguna importancia o significacioacuten en relacioacuten

con nuestra necesidad de informacioacuten y siendo pertinente el documento cuando nos

resulte oportuno es decir que nos proporcione informacioacuten para alguacuten propoacutesito

Podemos asumir entonces que un documento seraacute relevante para nuestra necesidad de

informacioacuten cuando nos aporte alguacuten contenido relacionado con nuestra peticioacuten

Posteriormente se repasan los meacutetodos tradicionales de evaluacioacuten de los sistemas

RI donde se emplean medidas basadas en la relevancia tales como la exhaustividad y la

precisioacuten que estaacuten inversamente relacionadas La exhaustividad relacionaraacute el nuacutemero de

documentos relevantes recuperados con el nuacutemero total de documentos relevantes y la

precisioacuten mediraacute el porcentaje de documentos recuperados que resultan relevantes con el

tema

En el supuesto de que los usuarios formen un grupo homogeacuteneo con similar

respuesta al determinar la relevancia del resultado de una operacioacuten de buacutesqueda se

proponen otras medidas orientadas al usuario como la cobertura la novedad y la exhaustividad

relativa

52

EVALUACIOacuteN DE LOS SISTEMAS RI

Se analiza con detenimiento el caacutelculo de la precisioacuten y de la exhaustividad porque

seguacuten algunos autores la precisioacuten puede hallarse con facilidad pero el caacutelculo de la

exhaustividad se presenta inviable su valor solamente puede ser estimado Algunos meacutetodos

para calcular la exhaustividad como los manuales resultan complejos y costosos En otros

casos se utiliza una muestra aleatoria de la coleccioacuten de documentos Para intentar

solucionar estos problemas se proponen las medidas promedio exhaustividad-precisioacuten

Para comparar el rendimiento en la recuperacioacuten de varios algoritmos se proponen

los valores sumarios simples tales como la precisioacuten media la R-Precisioacuten donde se tendraacute en

cuenta la ordenacioacuten por relevancia de un conjunto de documentos y los histogramas de

precisioacuten que se elaboran comparando los valores de R-Precisioacuten de los algoritmos

considerados

Se proponen ademaacutes otras medidas alternativas tales como la exhaustividad y precisioacuten

normalizadas para sistemas que presenten los documentos alineados seguacuten un criterio de

clasificacioacuten el ratio de deslizamiento que se basa en la comparacioacuten de dos listas ordenadas

de documentos recuperados y la medida de Voiskunskii calculada a partir de la ratio entre el

cuadrado de documentos relevantes recuperados y el nuacutemero de documentos que

conforman el resultado

53

EVALUACIOacuteN DE LOS SISTEMAS RI

54

Capiacutetulo 4

PERFILES DE USUARIO

En este capiacutetulo se da una visioacuten global del estado del arte en la elaboracioacuten y utilizacioacuten de

los perfiles de usuario Su consideracioacuten en el contexto de la Recuperacioacuten de Informacioacuten

estaacute motivada en la necesidad de personalizar la informacioacuten que se recupera y muestra a

los usuarios de forma que la informacioacuten presentada sea lo maacutes proacutexima posible a sus

necesidades reales de informacioacuten

La tesis estaacute encaminada a la propuesta de un sistema de recomendacioacuten

NectaRSS que utilizaraacute un perfil de usuario para representar las preferencias de eacuteste Por

ello es importante conocer el concepto del perfil de usuario y los diversos meacutetodos de

creacioacuten y representacioacuten de perfiles seleccionando con criterios suficientes las estrategias

maacutes adecuadas a nuestro trabajo Tambieacuten es importante conocer los meacutetodos de

realimentacioacuten por parte del usuario necesarios para que un sistema se vaya adecuando a

sus intereses y circunstancias

41 iquestQueacute es un Perfil

Perfil es una palabra que procede de la expresioacuten latina ldquopro filarerdquo que significa ldquodisentildear

los contornosrdquo Un perfil seraacute un modelo de un objeto una representacioacuten compacta que

describe sus caracteriacutesticas maacutes importantes que puede ser creado en la memoria de un

ordenador y puede utilizarse como representante del objeto en las tareas computacionales

Las aplicaciones maacutes conocidas que crean y gestionan perfiles incluyen la personalizacioacuten

la gestioacuten de conocimiento y el anaacutelisis de datos

Pueden existir distintos tipos de perfiles desde el perfil psicoloacutegico del

comportamiento de un individuo hasta el perfil del funcionamiento de un programa de

ordenador En principio se puede hacer un perfil de todo y por consiguiente las

caracteriacutesticas representadas en el perfil dependeraacuten de la naturaleza del objeto modelado

Muchos de los perfiles que se crean estaacuten referidos al usuario Se realizan perfiles de

los seres humanos como usuarios y tambieacuten como clientes eacutestos uacuteltimos con teacutecnicas

55

PERFILES DE USUARIO

especiacuteficas El desarrollo de perfiles de clientes se ha incrementado mucho en los uacuteltimos

antildeos en las tiendas en liacutenea y en aplicaciones de gestioacuten de las relaciones con los clientes

El perfil de usuario va a contener informacioacuten modelada sobre el usuario

representada expliacutecita o impliacutecitamente cuya explotacioacuten permitiraacute a un sistema

incrementar la calidad de sus adaptaciones Para obtener un perfil maacutes actual y preciso seraacute

necesario monitorizar las acciones del usuario de la forma maacutes cercana posible Esto

refuerza la necesidad de emplear teacutecnicas que automaticen de forma inteligente las tareas de

creacioacuten y gestioacuten de los perfiles de usuario

42 Meacutetodos de creacioacuten de perfiles

Pueden considerarse tres meacutetodos principales para crear perfiles el meacutetodo expliacutecito o

manual el meacutetodo colaborativo o de composicioacuten a partir de otros perfiles y el meacutetodo

impliacutecito que utiliza teacutecnicas especiacuteficas para extraer las caracteriacutesticas automaacuteticamente

En el meacutetodo expliacutecito los datos seraacuten introducidos directamente por el usuario

escribieacutendolos en su perfil de usuario o respondiendo a formularios

Mediante el meacutetodo colaborativo se podraacute crear y modificar un perfil de usuario a

partir de su interaccioacuten colaborativa con otros perfiles con los que se relaciona recurriendo

a conocimiento especiacutefico del dominio y heuriacutesticas inteligentes En la figura 51 se muestra

un esquema de las posibles interacciones entre distintos tipos de perfiles y sus fuentes de

informacioacuten

Por uacuteltimo en el meacutetodo impliacutecito los perfiles de usuario se crearaacuten y se

modificaraacuten automaacuteticamente recurriendo en la mayoriacutea de los casos a teacutecnicas de

Inteligencia Artificial para dichas tareas

Estos tres meacutetodos no son excluyentes entre si se podraacuten utilizar simultaacuteneamente

para producir perfiles maacutes precisos y comprensibles

56

PERFILES DE USUARIO

Figura 41 Interacciones entre diversos tipos de perfiles y sus fuentes de informacioacuten en el meacutetodo

colaborativo de creacioacuten de perfiles Fuente [Rui 2003]

43 Meacutetodos de adquisicioacuten de los datos del usuario

En esta seccioacuten se describiraacuten algunos meacutetodos basados en la introduccioacuten expliacutecita de

datos por el usuario y en muchos casos basados en el comportamiento de adquisicioacuten

activa del sistema Posteriormente se veraacuten los meacutetodos de adquisicioacuten pasiva reglas de

adquisicioacuten dependientes del dominio reconocimiento del plan y objetivos y estereotipos

para la clasificacioacuten del usuario

431 Informacioacuten Expliacutecita

La estrategia maacutes obvia para obtener informacioacuten del usuario seriacutea aquella en la que sea el

propio usuario quien proporcione los datos deseados Estos datos se podraacuten obtener

mediante preguntas que le realice el sistema Algunos ejemplos de utilizacioacuten de entrevistas

iniciales los podemos encontrar en [Sleeman 1985] [Rich 1979] [Boyle y Encarnaccedilatildeo

1994] y [Fink et al 1998] Muchos sitios web recurren a entrevistas iniciales para asignar el

usuario a un subgrupo de usuarios predefinido

57

PERFILES DE USUARIO

Un problema de este tipo de adquisicioacuten seraacute la dificultad del usuario para

autoevaluarse sobre todo respecto a su nivel de experiencia y capacidades Por ello ciertos

sistemas presentan al usuario un conjunto muy controlado de preguntas tests o ejercicios

para tratar de obtener una visioacuten objetiva del usuario Un ejemplo de esta utilizacioacuten de

cuestionarios puede verse en [Akoulchina y Ganascia 1997] Otros sitios de la Web maacutes

orientados a un usuario consumidor pueden incorporar estas preguntas en actividades de

entretenimiento y pueden ofrecer incentivos para que el usuario las responda

Otro problema es la Paradoja del Usuario Activo [Carrol y Rosson 1987] seguacuten eacutesta

los usuarios se sienten motivados para comenzar la interaccioacuten y desean concluir su tarea

inmediatamente No pierden tiempo con cuestionarios manuales o ayudas en liacutenea Resulta

paradoacutejico pues posiblemente ahorrariacutean tiempo a largo plazo ldquoperdiendordquo alguacuten tiempo

inicial para optimizar el sistema Incluso ciertos usuarios no visitaraacuten un sitio si tienen que

responder primero a una entrevista Por ello ldquose deberiacutea permitir a los usuarios la iniciativa

de proveer informacioacuten personal por ejemplo como parte de un diaacutelogo de preferenciasrdquo

[Strachan et al 2000] o ldquoen momentos arbitrarios de la interaccioacutenrdquo [Bares y Lester 1997]

432 Reglas de Adquisicioacuten

Las reglas de adquisicioacuten serviraacuten para generar presunciones acerca de un usuario y se

ejecutaraacuten normalmente cuando exista nueva informacioacuten disponible sobre dicho usuario

En la mayor parte de los casos estas reglas de adquisicioacuten estaraacuten referidas a acciones

observadas del usuario o a una interpretacioacuten de su comportamiento

Las reglas de adquisicioacuten podraacuten ser especiacuteficas para un dominio de aplicacioacuten o

independientes del dominio Un ejemplo de adquisicioacuten independiente del dominio lo

encontramos en [Chin 1989] que utiliza heuriacutesticas como ldquoSi el usuario quiere conocer X

entonces el usuario no conoce Xrdquo Otro ejemplo se encuentra [Kobsa y Pohl 1995] donde

se usan reglas de adquisicioacuten encajadas en actos de diaacutelogo

Respecto a las reglas de adquisicioacuten especiacuteficas aunque pueden resultar de faacutecil

implementacioacuten su uso puede ser poco flexible y sus propiedades pueden ser difiacuteciles de

describir formalmente Un ejemplo de su utilizacioacuten puede verse en [Fink et al 1998] y

otro ejemplo detallado lo tenemos en [Strachan et al 1997] y [Strachan et al 2000] donde

se describe el sistema TIMS El modelo de usuario utilizado en este sistema consistiraacute en

tres variables que representaraacuten el nivel de experto del usuario con relacioacuten al dominio de la

aplicacioacuten su familiaridad con TIMS y con el sistema operativo A cada una de estas

58

PERFILES DE USUARIO

variables se les podraacute asignar los valores ldquoprincipianterdquo ldquointermediordquo o ldquoexpertordquo que

seraacuten actualizadas regularmente por el sistema utilizando reglas y heuriacutesticas de adquisicioacuten

especiacuteficas

433 Reconocimiento del Plan

Se trata de explorar queacute objetivos persigue el usuario y queacute secuencia de acciones o plan

realizaraacute para lograr esos objetivos En un sistema de reconocimiento de planes existiraacute una

base de conocimiento de tareas para modelar las posibles acciones del usuario y las

relaciones entre ellas asiacute como un mecanismo para identificar el plan actual y sus objetivos

asociados Los primeros sistemas de reconocimiento de planes fueron desarrollados sobre

todo con meacutetodos simboacutelicos En los uacuteltimos antildeos se han ido aplicando cada vez maacutes las

teacutecnicas numeacutericas [Albrech et al 1997] [Bauer 1996] y las teacutecnicas basadas en grafos

como en [Lesh 1995]

El reconocimiento del plan de un usuario es especialmente efectivo en aplicaciones que

tengan pocos objetivos posibles y pocas formas de lograrlos En [Lesh et al 1999] se

muestra que el reconocimiento del plan del usuario acelera notablemente la interaccioacuten en

una aplicacioacuten de gestor de mensajes

434 Estereotipos

En este meacutetodo los usuarios se clasificaraacuten en categoriacuteas y se haraacuten predicciones sobre

ellos en base a un estereotipo asociado a cada categoriacutea Se asumiraacute que si un usuario

pertenece a una categoriacutea entonces eacuteste tendraacute caracteriacutesticas yo comportamientos

semejantes a los miembros de esa categoriacutea bajo un conjunto determinado de

circunstancias [Rich 1979]

En un estereotipo se distinguiraacute por una parte el cuerpo donde se mantiene la

informacioacuten ldquoverdaderardquo para los usuarios a los que se aplica dicho estereotipo y por otra

un conjunto de condiciones de activacioacuten del estereotipo que puede satisfacer un usuario

Para razonar sobre la base de estereotipos se tendraacuten que evaluar las reglas de

activacioacuten y si existen condiciones satisfechas por el usuario actual entonces se integran las

presunciones correspondientes al estereotipo en el perfil de ese usuario Por ejemplo si el

usuario ldquotiene intereacutes en bebeacutesrdquo entonces se podriacutea activar el estereotipo ldquopadrerdquo

[Ambrosini et al 1997]

59

PERFILES DE USUARIO

Los estereotipos se han utilizado en gran cantidad de sistemas [Ambrosini et al

1997] [Ardissono et al 1999] [Fink et al 1998] [Kobsa et al 1994] Un paraacutemetro

importante que determina la efectividad de este meacutetodo va a ser la calidad de los

estereotipos es decir cuaacutentos diferentes estereotipos reconoce el sistema con queacute acierto

atribuye los estereotipos a los usuarios y la calidad de las inferencias que se han disentildeado

para cada estereotipo

435 Adquisicioacuten de Datos de Utilizacioacuten

En algunos casos ademaacutes de observar el comportamiento del usuario se intenta modelarlo

para que sirva de fundamento en la adaptacioacuten del sistema Ejemplos de sistemas que

registran las acciones del usuario para obtener informacioacuten de su comportamiento son

Flexcel [Krogsaeter et al 1994] que adapta los menuacutes y ciertos paraacutemetros del programa

comercial Excel a un usuario concreto basaacutendose en las tareas que eacuteste realiza con la

aplicacioacuten y Basar [Thomas y Fischer 1996] que asiste a un usuario en la manipulacioacuten de

su informacioacuten personal de la Web manejando sus listas de enlaces preferidos y su historia

de navegacioacuten

Otras teacutecnicas son las empleadas por los agentes de interfaz y los agentes personales

[Maes 1994] [Mitchel et al 1994] ldquoEstos sistemas seraacuten maacutes efectivos cuanto maacutes

aprendan los haacutebitos intereses y preferencias del usuariordquo [Maes 1994] Se pretende que

los agentes aprendan correlaciones entre las situaciones que el usuario encuentra y las

acciones que realiza Entonces se utilizaraacuten estos datos por ejemplo para prever el

comportamiento del usuario en futuras situaciones para recomendar acciones al usuario y

para realizar automaacuteticamente acciones por el usuario

Tambieacuten se han construido perfiles de usuario orientados a su comportamiento

mediante algoritmos de aprendizaje de maacutequinas Una muestra es la aproximacioacuten de

[Webb y Kuzmyez 1996] en la que se pretenden aprender correlaciones situacioacuten-accioacuten

para modelar al usuario en sistemas educacionales

44 Representacioacuten del Perfil de Usuario

Una vez se haya adquirido un modelo del usuario se necesitaraacute una representacioacuten de ese

modelo el perfil de usuario para que pueda ser utilizado por otros componentes del

sistema Se pueden utilizar estructuras simples para representar el modelo de usuario como

60

PERFILES DE USUARIO

pares ldquocaracteriacutestica-valorrdquo [Sleeman 1985] o realizar adaptaciones directas de los

contenidos que se le ofrecen al usuario a partir de su perfil Otros sistemas representaraacuten

los modelos adquiridos y emplearaacuten inferencias para refinar los resultados iniciales

Se abordaraacuten los meacutetodos maacutes comunes de representacioacuten de modelos de usuario y

las teacutecnicas de inferencia asociadas Distinguiremos epistemoloacutegicamente tres tipos de

razonamiento deductivo inductivo y analoacutegico

441 Razonamiento Deductivo

La caracteriacutestica principal del razonamiento deductivo es que se progresaraacute de lo general a

lo particular Dentro de este tipo de razonamiento trataremos el uso de meacutetodos basados

en la loacutegica y el razonamiento con incertidumbre

4411 Representacioacuten e Inferencia Loacutegica

El uso de meacutetodos basados en la loacutegica ha sido analizado por diversos autores una muestra

bastante completa la podemos encontrar en [Pohl 1998] Un ejemplo de sistema adaptativo

lo tenemos en [Kobsa y Pohl 1995] denominado KN-AHS Este sistema utilizaraacute premisas

sobre las creencias del usuario representaacutendolas mediante conceptos Asiacute una premisa del

tipo ldquousuario conoce el concepto Xrdquo se representaraacute antildeadiendo una representacioacuten del

concepto en la base de conocimiento del sistema

Para representar el conocimiento del sistema sobre el dominio y el conocimiento

del usuario sobre ese dominio se pueden utilizar formalismos como los grafos de

conceptos Tambieacuten se pueden utilizar otros formalismos conceptuales como el caacutelculo de

proposiciones y la loacutegica modal Estos meacutetodos no son capaces de gestionar la

incertidumbre y alteran constantemente el perfil de usuario Por ello a veces se recurre a

meacutetodos basados en loacutegica no estaacutendar como por ejemplo la teacutecnica de la ldquomanutencioacuten

de verdadrdquo [Brajnik y Tasso 1994] [Paiva y Self 1995]

4412 Representacioacuten y Razonamiento con Incertidumbre

Para gestionar la incertidumbre asociada a la construccioacuten de perfiles de usuario se pueden

utilizar meacutetodos numeacutericos basados en valores de evidencia [Jameson 1996] Un ejemplo

es HYDRIVE [Mislevy y Gitomer 1996] que emplea redes neuronales Bayesianas

61

PERFILES DE USUARIO

Otra teacutecnica basada en evidencias es la loacutegica borrosa que permitiraacute representar

conceptos vagos Un argumento de esta teacutecnica es que los usuarios razonan en teacuterminos de

conceptos vagos cuando se enfrentan con la incertidumbre y ademaacutes la informacioacuten que los

usuarios pueden dar de siacute mismos es vaga Un ejemplo de este tipo de sistemas realiza

recomendaciones de los productos maacutes ajustados a un usuario actuando como un asistente

de ventas [Popp y Lodel 1996]

442 Razonamiento Inductivo Aprendizaje

En el razonamiento inductivo se progresaraacute de lo particular a lo general por ello se

monitorizaraacute la interaccioacuten del usuario con el sistema y se disentildearaacuten conclusiones generales

basadas en las observaciones

En principio los algoritmos de aprendizaje se podraacuten utilizar para inferir cualquier

tipo de presuncioacuten sobre un usuario En este caso los perfiles de usuario representaraacuten

afinidades del usuario con objetos basadas en el intereacutes del usuario en alguna caracteriacutestica

especiacutefica de dichos objetos Entonces el sistema podraacute realizar una recomendacioacuten

personalizada de los objetos al usuario Este tipo de recomendacioacuten se suele denominar

filtrado basado en caracteriacutesticas Se trata de descubrir queacute preferencias tiene el usuario

partiendo de determinadas caracteriacutesticas de los objetos y de clasificar los objetos como de

mayor o menor intereacutes para el usuario basaacutendose en su perfil

Podemos encontrar distintas teacutecnicas de adquisicioacuten de los perfiles de intereses En

Syskill and Webert [Pazzani et al 1996] se emplearon teacutecnicas de aprendizaje automaacutetico

para obtener el perfil de intereacutes del usuario en base a clasificaciones expliacutecitas de

documentos

En otros sistemas que utilizan aprendizaje inductivo el perfil de intereacutes del usuario

se referiraacute a la informacioacuten contenida en los documentos Las caracteriacutesticas seraacuten las

palabras consideradas maacutes o menos interesantes para el usuario Ejemplos de estos sistemas

adaptativos de recomendacioacuten basados en el intereacutes del usuario son Fab [Balabanovic

1997] y Letizia [Lieberman 1995] En [Balabanovic 1997] se utilizan aproximaciones

claacutesicas de los sistemas RI para describir los intereses del usuario Los documentos y los

perfiles de usuario se podraacuten describir mediante un modelo vectorial Asiacute en el vector que

represente a un documento cada peso podraacute expresar la importancia de la palabra en tal

documento y en el vector que representa al perfil de usuario cada peso podraacute expresar la

importancia de la palabra para el usuario

62

PERFILES DE USUARIO

443 Razonamiento por Analogiacutea

El razonamiento por analogiacutea se basaraacute en el reconocimiento de semejanzas entre usuarios

En esta seccioacuten se describiraacuten dos aproximaciones relacionadas con el gran nuacutemero de

usuarios de la Web el meacutetodo de filtrado basado en grupos y la agrupacioacuten o ldquoclusteringrdquo

de perfiles de usuario

4431 Filtrado Basado en Grupos

En los sistemas de filtrado basado en caracteriacutesticas podemos encontrarnos con ciertos

problemas el contenido de los objetos puede no resultar faacutecil de analizar dicho contenido

puede no ser el uacutenico aspecto de intereacutes por parte del usuario y puede ser difiacutecil de expresar

en forma de vectores Ademaacutes puede que los intereses del usuario no se basen en las

caracteriacutesticas de los objetos Para intentar solucionar estos problemas se proponen

sistemas que buscan los usuarios que muestran un comportamiento interactivo similar

Estos sistemas se adaptaraacuten al usuario basaacutendose en el comportamiento de sus vecinos en

intereses Asiacute un perfil impliacutecito para un usuario individual puede venir dado por el

conjunto de usuarios semejantes Esta aproximacioacuten se suele denominar filtrado basado en

grupos [Alspector et al 1997]

Un ejemplo de este tipo de sistema es GroupLens [Konstan et al 1997] que calcula

las correlaciones entre lectores de grupos de noticias de Usenet1 utilizando para ello las

clasificaciones de los nuevos artiacuteculos que realizan los usuarios Estas clasificaciones se

utilizaraacuten para buscar usuarios con clasificaciones semejantes En el sistema Siteseer [Rucker

y Polanco 1997] se confeccionan comunidades virtuales de usuarios basadas en sus

marcadores de paacuteginas o ldquobookmarksrdquo

El rendimiento de los meacutetodos de filtrado basado en grupos es difiacutecil de cuantificar

y muy dependiente de la distribucioacuten de clasificaciones en la poblacioacuten de usuarios En

[Breese et al 1998] se puede encontrar una comparacioacuten de diferentes algoritmos de este

tipo

1 Usenet o Netnews es un servicio al que se puede acceder desde Internet en el que los usuarios pueden leer o enviar mensajes denominados artiacuteculos a distintos grupos de noticias ordenados de forma jeraacuterquica

63

PERFILES DE USUARIO

4432 Agrupacioacuten de Perfiles de Usuario

Al caracterizar un usuario mediante un conjunto de perfiles de otros usuarios lo que se estaacute

considerando es un perfil no expliacutecito del usuario En el caso de que se utilice un perfil de

usuario expliacutecito tambieacuten existiraacuten posibilidades de explorar las similitudes entre usuarios

El sistema Doppelganger [Orwant 1995] construye perfiles de usuario expliacutecitos

utilizando meacutetodos estadiacutesticos y de aprendizaje automaacutetico Este sistema aplica un

algoritmo de agrupacioacuten o ldquoclusteringrdquo a los perfiles para descubrir usuarios semejantes

formando perfiles de grupos de usuarios

[Paliouras et al 1999] propone una aproximacioacuten hiacutebrida utiliza teacutecnicas de

aprendizaje para determinar el contenido de los estereotipos y para construir comunidades

de perfiles de intereses El meacutetodo de aprendizaje automaacutetico que utiliza se denomina C45

[Quinlan 1993] y realiza induccioacuten en aacuterboles de decisioacuten En este caso cada aacuterbol se

corresponderaacute a un estereotipo para cierta variable dependiente del sistema por ejemplo

una categoriacutea de noticias

El sistema de recomendacioacuten ELFI [Schwab y Kobsa 2002] aprende

expliacutecitamente los intereses del usuario basaacutendose en la navegacioacuten que realiza y en los

documentos que selecciona Primero obtiene estadiacutesticamente las caracteriacutesticas del

usuario luego selecciona las caracteriacutesticas que representan los intereses del usuario para su

perfil de usuario y por uacuteltimo decide los documentos que recomendaraacute basaacutendose en dicho

perfil Esta decisioacuten se basaraacute en las caracteriacutesticas semejantes de los documentos o en las

caracteriacutesticas semejantes de los usuarios Para calcular la similitud entre usuarios el sistema

realizaraacute grupos de perfiles de usuario y les aplicaraacute la correlacioacuten de Pearson que

considera el peso de cada caracteriacutestica Asiacute se determinaraacute a queacute grupo pertenece el

usuario y se le recomendaraacuten nuevos documentos entre los ya visitados por el grupo y no

visitados por el usuario clasificados seguacuten una meacutetrica propia de los autores

45 Realimentacioacuten del usuario

Seguacuten [Rijsbergen 1979] la actualizacioacuten de un perfil de usuario podraacute considerarse una

secuencia de inferencias basadas en la observacioacuten de las interacciones del usuario

comuacutenmente llamadas de ldquofeedbackrdquo o realimentacioacuten

La realimentacioacuten del usuario puede ser de dos tipos impliacutecita y expliacutecita La

realimentacioacuten impliacutecita seraacute difiacutecil de detectar y de interpretar En este caso el sistema

64

PERFILES DE USUARIO

monitorizaraacute el comportamiento del usuario de forma transparente para dicho usuario En

el dominio de la Web se podraacuten interpretar distintos datos como realimentacioacuten impliacutecita

seguir un enlace el tiempo empleado en ver una paacutegina el movimiento vertical de la paacutegina

que realiza el usuario imprimir la paacutegina marcar la paacutegina como favorita El problema es

que este tipo de datos son muy vagos Por ejemplo un usuario puede seguir un enlace

creyendo que le conduce a una paacutegina de intereacutes y en realidad puede no serlo el tiempo

invertido en una paacutegina puede no ser realista el usuario podriacutea haberse distraiacutedo imprimir

o marcar una paacutegina como favorita puede ser debido a que el usuario tiene falta de tiempo

Otro tipo de datos que se consideran como realimentacioacuten impliacutecita seraacuten los datos

histoacutericos de la actividad del usuario en el sistema Esta fuente de informacioacuten sobre el

usuario puede proporcionarnos mucha informacioacuten acerca de sus intereses Asiacute por

ejemplo podraacute utilizarse el historial de las selecciones de contenidos que realice un usuario

para ir confeccionando automaacuteticamente su perfil

Respecto a la realimentacioacuten expliacutecita eacutesta se obtendraacute preguntando directamente al

usuario Se le puede solicitar que rellene un cuestionario o que haga un juicio de valor con

respecto a algo Este tipo realimentacioacuten presentaraacute bastantes desventajas es muy comuacuten

que un usuario no desee rellenar cuestionarios o responder a otras solicitudes Por otra

parte la informacioacuten que el usuario pueda proporcionar de siacute mismo seraacute poco fiable

puede querer dar buena imagen de siacute mismo suministrando informacioacuten que realmente no

es la adecuada a sus intereses o necesidades Ademaacutes muchos usuarios simulan su intereacutes en

dar la realimentacioacuten y sin embargo responden de forma casi o totalmente aleatoria y en

ciertos casos el usuario puede no entender lo que se le solicita De esta manera puede

suceder que el usuario y el sistema tengan modelos distintos del dominio y a su vez tener

modelos distintos uno del otro [Rui 2003]

Otro tipo de problemas estaraacuten maacutes relacionados con la naturaleza de la

realimentacioacuten Resulta un hecho bien conocido que el usuario ofrece realimentacioacuten

positiva en muy pocas situaciones Por otra parte si ya ha encontrado lo que le interesa

puede perder el intereacutes en dar su opinioacuten En la realimentacioacuten negativa la situacioacuten seraacute

auacuten peor dado que el usuario tendriacutea que opinar sobre algo que no le interesa

Estos inconvenientes de la realimentacioacuten expliacutecita reafirman la conveniencia de

utilizar siempre que sea posible una realimentacioacuten transparente para el usuario sin que se

requiera esfuerzo alguno por parte de eacuteste

65

PERFILES DE USUARIO

46 Agentes Software y creacioacuten de perfiles

Seguacuten [Maes 1995] ldquolos agentes autoacutenomos son sistemas computacionales que habitan en

entornos dinaacutemicos complejos percibiendo y actuando de manera autoacutenoma en ese

entorno y que realizan un conjunto de metas o tareas para las que han sido disentildeadosrdquo

Los agentes se han utilizado ampliamente en distintos campos comerciales

industriales meacutedicos e incluso para entretenimiento Se han creado agentes para realizar de

forma automaacutetica distintas tareas en la Web tales como buacutesquedas filtrado resumen y

presentacioacuten de informacioacuten Otros agentes recomiendan informacioacuten mediante la

colaboracioacuten del usuario o de usuarios que compartan intereses similares Casi todos estos

agentes se basaraacuten en alguacuten modo de conocimiento del usuario

Para [Akoulchina y Ganascia 1997] los agentes se distinguiraacuten del software

convencional en los siguientes aspectos autonomiacutea pueden deducir el estado de su

ambiente y actuar de forma independiente para lograr sus objetivos adaptabilidad seraacuten

capaz de aprender y de adaptarse a distintas situaciones y seraacuten no-restrictivos es decir no

impondraacuten ninguacuten comportamiento a otras entidades como por ejemplo al usuario de un

sistema

La utilizacioacuten de perfiles de usuario en la tecnologiacutea de agentes se centraraacute

principalmente en las tareas de la gestioacuten de informacioacuten donde encontraremos agentes

que asisten en la navegacioacuten o en la buacutesqueda y agentes de recomendacioacuten Estos agentes

podraacuten aprender el perfil del usuario de forma automaacutetica recurriendo a teacutecnicas de

inteligencia artificial

Un ejemplo de este tipo de agentes es Apt Decision [Shearin y Lieberman 2000]

Este agente persigue el aprendizaje de las preferencias del usuario en un dominio de

alquiler de pisos Para ello se observaraacuten las criacuteticas del usuario a los pisos que le vayan

siendo presentados y a partir de eacutestas realizaraacute un conjunto de inferencias como base para

la construccioacuten del perfil de usuario Cada caracteriacutestica de un piso tendraacute un peso

asociado que seraacute actualizado para cada usuario siempre que eacuteste ubique esa caracteriacutestica

en su perfil de usuario La actualizacioacuten del perfil puede ser manual el usuario selecciona

las caracteriacutesticas de los pisos que prefiere de una lista o automaacutetica se le sugiere al usuario

que elija pisos prototipos en parejas para inferir automaacuteticamente algunas preferencias del

usuario y actualizar entonces su perfil

66

PERFILES DE USUARIO

47 Modelos Estadiacutesticos

Estos modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos anaacutelisis

estadiacutesticos del comportamiento del usuario por ejemplo queacute operaciones realiza queacute

paacuteginas visita queacute tiempo se entretiene en una paacutegina Los datos obtenidos se emplearaacuten

para elaborar su perfil correspondiente

Un sistema de este tipo seraacute el propuesto por [Chan 1999] que construye un perfil

para reflejar los intereses de un usuario sin necesidad alguna de intervencioacuten por parte de

eacuteste partiendo de la simple observacioacuten de su comportamiento Se considera que un perfil

de usuario estaraacute formado baacutesicamente por dos componentes el estimador de intereacutes en

paacuteginas que clasificaraacute las paacuteginas Web por su contenido analizando estadiacutesticamente el

comportamiento en accesos del usuario y un grafo de accesos a la Web donde se

mantendraacuten n-gramas de palabras o frases que aparecen en las paacuteginas de intereacutes y que

serviraacuten para describir dicho intereacutes Estas frases o n-gramas constituiraacuten el perfil de

usuario que serviraacute para clasificar el intereacutes de las paacuteginas devueltas por un motor de

buacutesqueda El anaacutelisis estadiacutestico se basaraacute en los datos del comportamiento del usuario

obtenidos a partir de cuatro fuentes principales el histoacuterico los marcadores de paacutegina el

contenido de cada paacutegina y los registros de acceso A partir de estas fuentes de datos y un

conjunto de presunciones probadas empiacutericamente se desarrollaron meacutetricas estadiacutesticas

para evaluar el intereacutes de una paacutegina para un usuario

Las presunciones empiacutericas consideradas en [Chan 1999] son

1 Las direcciones maacutes visitadas y maacutes recientemente visitadas son las de mayor

intereacutes

2 Las paacuteginas que se encuentran marcadas tienen un gran intereacutes

3 Si las paacuteginas tienen enlaces y el usuario sigue la mayoriacutea de esos enlaces eso

indicaraacute que las paacuteginas son de intereacutes

4 Cuanto maacutes tiempo pase un usuario en una paacutegina maacutes intereacutes tendraacute esa

paacutegina y cuanto maacutes raacutepido sea el cambio de paacutegina menos intereacutes tendraacute esa

paacutegina

En este uacuteltimo punto seraacute necesario tener en cuenta dos matices un raacutepido cambio

de paacutegina puede ser debido a que la paacutegina soacutelo esteacute compuesta por un conjunto de

enlaces pese a ser de intereacutes y por otra parte permanecer mucho tiempo en una paacutegina

puede ser deberse a una ausencia momentaacutenea del usuario Para prevenir estas situaciones

67

PERFILES DE USUARIO

se marcaraacute un tiempo maacuteximo de permanencia en una paacutegina y los intervalos de tiempo

superiores a dicho tiempo maacuteximo se consideraraacuten de otra sesioacuten

Otro ejemplo de sistema basado en un modelo estadiacutestico es el denominado

CASPER [Rafter y Smyth 2001] Eacuteste utiliza un conjunto de meacutetricas estadiacutesticas para

construir perfiles de los intereses del usuario en la buacutesqueda de empleo Los perfiles de

usuario se construyen monitorizando las selecciones que realiza el usuario y el tiempo que

eacuteste emplea en la lectura de la informacioacuten suministrada Estos datos se recogen de un

servidor web denominado JobFinder donde se graban los registros de actividad de los

usuarios

48 Razonamiento Basado en Reglas

Los sistemas de razonamiento basados en reglas analizaraacuten las caracteriacutesticas de problemas

pasados efectuando asociaciones a lo largo de relaciones generales para encontrar

soluciones al problema presente

Un meacutetodo para adaptar la navegacioacuten en un hiperespacio estructurado basaacutendose

en el perfil de usuario se puede encontrar en [Hijikata et al 2001] En este hiperespacio

existiraacuten nodos que representan las paacuteginas y enlaces entre los nodos El perfil de usuario

se obtendraacute observando la actividad del usuario en el sistema y estaraacute formado por dos

partes fundamentales un conjunto de pares (propiedad valor) o paraacutemetros del usuario y

la secuencia de nodos o camino recorrido por el usuario hasta el momento El sistema

dispondraacute de reglas de usuario basadas en el camino recorrido y de reglas de camino

basadas en los paraacutemetros del usuario Con estas reglas y los elementos del perfil de

usuario se realizaraacute una adaptacioacuten del camino a seguir por el usuario eliminando ciertos

enlaces que de otra manera estariacutean presentes en la paacutegina

El principal problema de estos sistemas seraacute la dificultad para describir y definir las

reglas asiacute como la deteccioacuten y prevencioacuten de errores en eacutestas

49 Un sistema de buacutesqueda adaptativa en la Web basado en un perfil

de usuario automaacutetico

Se examinaraacute el sistema propuesto por [Kazunari 2004] ya que reuacutene varias caracteriacutesticas

que resultan de intereacutes En primer lugar la elaboracioacuten del perfil de usuario se llevaraacute a cabo

68

PERFILES DE USUARIO

sin esfuerzo alguno por parte de eacuteste simplemente analizando su historial de navegacioacuten

por las paacuteginas web en segundo lugar el proceso de elaboracioacuten del perfil es relativamente

sencillo y considera una evolucioacuten temporal de los intereses del usuario y en tercer lugar su

objetivo es facilitar la buacutesqueda de informacioacuten al usuario ofrecieacutendole una serie de enlaces

ordenados de mayor a menor puntuacioacuten seguacuten su perfil

Este sistema recoge una buacutesqueda de informacioacuten del usuario y la lleva a cabo

utilizando un buscador claacutesico como Google Entonces adapta los resultados devueltos por

el buscador seleccionando aquellas paacuteginas relevantes para el usuario seguacuten su perfil Para ir

elaborando dicho perfil de usuario monitoriza la navegacioacuten de eacuteste por la Web

recopilando informacioacuten acerca de los distintos teacuterminos que aparecen en cada paacutegina y su

frecuencia

Se distinguen dos aspectos de las preferencias del usuario las preferencias

persistentes Pper y las preferencias efiacutemeras Ptoday En las preferencias persistentes el perfil de

usuario se desarrolla a lo largo del tiempo y se almacena para utilizarlo en futuras sesiones

En las preferencias efiacutemeras la informacioacuten utilizada para construir cada perfil de usuario

se recoge solamente durante la sesioacuten actual y se emplea inmediatamente para realizar

procesos adaptativos destinados a personalizar la sesioacuten El perfil de usuario P se

representaraacute mediante un vector que se construye considerando ambos tipos de

preferencias P=aPper + bPtoday donde a y b son dos constantes que satisfacen a+b=1 Para

calcular Ptoday se consideraraacuten las preferencias correspondientes a las sesiones del diacutea

anteriores a la actual Pbr y las correspondientes a la sesioacuten actual Pcur Entonces se utiliza la

foacutermula Ptoday=xPbr + yPcur siendo x e y dos constantes que satisfacen x+y=1

Cada paacutegina Web se representaraacute mediante un vector w de pesos de los distintos

teacuterminos que se encuentren en ella Cada elemento de w se calcularaacute seguacuten el esquema tf o

de la frecuencia del teacutermino

La similitud entre una paacutegina w y el perfil de usuario P se calcula seguacuten la distancia

del coseno entre ambos

wPwPw)sim(P rrr

sdotsdot

=r

(41)

De esta manera los resultados de una buacutesqueda se adaptaraacuten al usuario de acuerdo

con su perfil mostrando el sistema en primer lugar las paacuteginas con mayor valor de

similitud

69

PERFILES DE USUARIO

410 Resumen

En este capiacutetulo se define el concepto de perfil de usuario y se enumeran distintos meacutetodos

para la creacioacuten de perfiles Se han repasado tambieacuten diversas metodologiacuteas de adquisicioacuten

de los datos del usuario la adquisicioacuten expliacutecita o activa y la adquisicioacuten pasiva donde se

incluyen las reglas de adquisicioacuten el reconocimiento del plan y los estereotipos En otros

casos ademaacutes se intenta modelar el comportamiento del usuario registrando sus acciones

adquiriendo sus datos de utilizacioacuten

Una vez obtenidos los datos necesarios para el perfil de usuario es necesaria una

representacioacuten de dicho perfil para que pueda ser utilizado por otros componentes del

sistema Asiacute dentro del razonamiento deductivo nos encontraremos con representaciones e

inferencias basadas en la loacutegica y para tratar con la incertidumbre con los meacutetodos

numeacutericos basados en valores de evidencia Dentro del razonamiento inductivo o

aprendizaje se consideraraacute el filtrado basado en las caracteriacutesticas de los objetos el

aprendizaje automaacutetico y los sistemas adaptativos basados en los intereses de los usuarios

En eacutestos uacuteltimos muchos autores han utilizado un modelo vectorial para representar los

documentos y los perfiles de usuario Dentro del razonamiento por analogiacutea se describen

dos aproximaciones relacionadas con el gran nuacutemero de usuarios de la Web tales son el

meacutetodo de filtrado basado en grupos y el agrupamiento de perfiles de usuario

Otro tema tratado es la realimentacioacuten del sistema por parte del usuario que nos

permitiraacute actualizar su perfil Se distingue entre la realimentacioacuten impliacutecita que monitoriza

el comportamiento del usuario de forma transparente para eacuteste y la realimentacioacuten

expliacutecita que pregunta directamente al usuario La primera seraacute difiacutecil de detectar e

implementar y la segunda se enfrenta con problemas relativos al intereacutes del usuario en

proporcionar realimentacioacuten o no y la calidad de dicha realimentacioacuten

Los perfiles de usuario tambieacuten se utilizan en las tecnologiacuteas emergentes de agentes

software donde pueden encontrarse agentes que asisten en la navegacioacuten o en la buacutesqueda

y agentes de recomendacioacuten Estos agentes podraacuten aprender el perfil del usuario de forma

automaacutetica recurriendo a teacutecnicas de inteligencia artificial

Otros modelos de creacioacuten de perfiles se caracterizan porque llevan a cabo diversos

anaacutelisis estadiacutesticos del comportamiento del usuario modelos estadiacutesticos o porque

analizan las caracteriacutesticas de problemas pasados para realizar asociaciones y encontrar

soluciones al problema presente sistemas de razonamiento basado en reglas

70

PERFILES DE USUARIO

Para finalizar se expone un sistema propuesto por [Kazunari 2004] que permite

realizar buacutesquedas adaptativas en la Web basaacutendose en un perfil de usuario automaacutetico

elaborado sin esfuerzo alguno por parte del usuario En este sistema se emplea un modelo

vectorial y valores de similitud basados en la medida del coseno para clasificar los

resultados de una buacutesqueda

71

PERFILES DE USUARIO

72

Capiacutetulo 5

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN DE

CONTENIDOS BASADO EN PERFILES

En los capiacutetulos anteriores se han presentado los conceptos generales sobre los SRI y su

evaluacioacuten Ademaacutes se han tratado algunos lenguajes de definicioacuten de documentos y

diversos aspectos sobre la creacioacuten y utilizacioacuten de perfiles de usuario

En este capiacutetulo se exponen las bases teoacutericas del sistema NectaRSS Se propone

un sistema de recomendacioacuten que recupera informacioacuten de la Web la puntuacutea en base a un

perfil de usuario elaborado automaacuteticamente y presenta dicha informacioacuten ordenada al

usuario seguacuten su puntuacioacuten

El capiacutetulo se estructura de la siguiente manera la seccioacuten 51 es una introduccioacuten

en la seccioacuten 52 tras definir la representacioacuten de la informacioacuten y del perfil de usuario

utilizando el modelo vectorial [Salton 1971 1983] se detalla la elaboracioacuten automaacutetica del

perfil de usuario en base a la informacioacuten que eacuteste seleccione En la seccioacuten 53 se veraacute

coacutemo se puntuacutea la informacioacuten utilizando la medida del coseno de Salton [Salton 1989]

Finalmente en la seccioacuten 54 se realiza una descripcioacuten general del sistema propuesto

aplicaacutendolo a la elaboracioacuten de un agregador inteligente

51 Introduccioacuten

El sistema que proponemos denominado NectaRSS estaacute encaminado a proporcionar un

mecanismo de recomendacioacuten de informacioacuten ofreciendo eacutesta ordenada al usuario seguacuten

la puntuacioacuten que el sistema le otorgue en base a un perfil de usuario elaborado

automaacuteticamente

Asiacute dado que el teacutermino ldquoinformacioacutenrdquo es muy general resulta adecuado restringir

su significado para acercarlo maacutes al aacutembito de nuestro sistema Entonces la informacioacuten

que recuperaraacute el sistema se denominaraacute geneacutericamente como noticias Una noticia estaraacute

compuesta por un titular un hiperenlace a su contenido y opcionalmente un resumen de

dicho contenido

73

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En el sistema NectaRSS se consideraraacute ademaacutes el concepto de sesioacuten Una sesioacuten

seraacute una ejecucioacuten completa del sistema comprendiendo la recuperacioacuten de informacioacuten

disponible en la Web en ese momento seguacuten las fuentes preferidas la monitorizacioacuten de

las elecciones del usuario y el caacutelculo del perfil de usuario al teacutermino de la ejecucioacuten del

sistema Una sesioacuten no estaacute referida a un diacutea concreto sino que en un mismo diacutea pueden

darse varias sesiones o ninguna Incluso puede que en una sesioacuten no se recupere nueva

informacioacuten o que el usuario no seleccione noticia alguna Asiacute la sesioacuten estaraacute limitada

uacutenicamente por el inicio y fin de la ejecucioacuten del sistema

En la figura 51 se muestra una visioacuten general de este sistema propuesto donde

puede observarse que el usuario simplemente navegaraacute por las noticias que se le ofrecen y

que el perfil de usuario serviraacute para puntuar la informacioacuten recuperada de la Web en forma

de noticias de manera que el sistema pueda ofrecerlas ordenadas por relevancia al usuario

Por otra parte la propia seleccioacuten de noticias que realice el usuario serviraacute de

retroalimentacioacuten al sistema que actualizaraacute automaacuteticamente su perfil

Usuario

Visualizar y seleccionar noticias

World Wide Web

Perfil de Usuario

Agregador de noticias

Puntuar la informacioacuten recuperada

Actualizar perfil

Proporcionar noticias relevantes

Seleccioacuten de noticias

Figura 51 Vista general del sistema NectaRSS propuesto

52 Construccioacuten automaacutetica de un perfil de usuario basado en su

historia de navegacioacuten

En nuestro enfoque el perfil de usuario se construiraacute de manera impliacutecita En otras

palabras un usuario no deberaacute realizar esfuerzos expliacutecitos como realimentacioacuten o

evaluaciones para construir su perfil Eacuteste seraacute elaborado de manera automaacutetica seguacuten su

historial de navegacioacuten por los titulares de noticias que se le vayan ofreciendo

74

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

El perfil de usuario P se desarrollaraacute incrementalmente a lo largo de las distintas

sesiones con el sistema y se guardaraacute para utilizarlo en sesiones futuras En cada sesioacuten se

recopilaraacute informacioacuten acerca de las acciones del usuario y al final de la sesioacuten esa

informacioacuten se trasladaraacute al perfil de usuario Asiacute podemos considerar un perfil de sesioacuten

Ps cuya informacioacuten se recoge solamente durante la sesioacuten actual Un usuario puede realizar

diferentes sesiones en un diacutea y puede haber consultado diferentes titulares en ese periodo

de tiempo En nuestro meacutetodo asumiremos que las preferencias del usuario se construyen

por acumulacioacuten de sus preferencias pasadas De esta manera iremos construyendo el

perfil de usuario P considerando las preferencias acumuladas almacenadas en P y las

preferencias de cada sesioacuten almacenadas en Ps Asiacute P reflejaraacute un perfil de usuario

construido con la historia de navegacioacuten por titulares durante S sesiones

Para representar a las noticias y al perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] comentado en la seccioacuten 221 de esta tesis

Asiacute definimos Sj (j = 1 2hellip N) como el nuacutemero de titulares que ha elegido el

usuario en la sesioacuten j En cada sesioacuten Ps se construiraacute mediante el siguiente proceso En

primer lugar denotaremos el vector caracteriacutestica wh del titular h (h = 1 2hellip Sj) como

sigue

(51) )ww(ww ht

ht

ht

hm21

=

donde m es el nuacutemero de distintos teacuterminos en el titular h y tk denota cada teacutermino

Utilizando el esquema tf o de la frecuencia del teacutermino cada elemento de wh se define

como sigue

ht k

w

sum =

= m

1s sh

khht

tftf

wk

(52)

donde tfhk es la frecuencia del teacutermino tk en cada titular h

Entonces definimos a Ps como

(53) )psps(psPs21 ttts =

75

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

donde s es el nuacutemero de distintos teacuterminos en todos los titulares elegidos en la

sesioacuten j y tk denota cada teacutermino

Y definimos cada elemento utilizando la foacutermula (52) como sigue ktps

sum=

=j

kk

S

1h

ht

jt w

S1ps (54)

Cada usuario seleccionaraacute Sj titulares en cada sesioacuten Ese valor Sj seraacute diferente

seguacuten el usuario Por tanto normalizaremos utilizando Sj como se muestra en la

ecuacioacuten (54) ktps

El perfil de usuario P se denotaraacute tambieacuten mediante un vector

(55) )pp(pPn21 ttt=

donde n es el nuacutemero de distintos teacuterminos en el perfil P y tk denota cada teacutermino

Cada elemento se define kt

p

sum sum= =

=T

1j

S

1h

ht

jt

j

kkw

S1p (56)

siendo T el nuacutemero total de sesiones que se hayan realizado hasta el momento

Ahora se estaacute en disposicioacuten de definir coacutemo se elaboraraacute el perfil de usuario P al

teacutermino de cada sesioacuten Sea Pj el perfil de usuario almacenado despueacutes de la sesioacuten j

Entonces el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguientes expresiones

76

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Pj+1 = a Pj + b Psj para forall sub Psj (57) kt

p

Pj+1= Pj para forall nsub Psj (58) kt

p

donde a y b son constantes que satisfacen a + b = 1 Para enfatizar la sesioacuten actual

se le puede otorgar al paraacutemetro b un peso mayor que al paraacutemetro a

Ademaacutes podemos definir un factor de olvido fol opcional de manera anaacuteloga a como

se propone en [Kazunari 2004] asumiendo que ciertas preferencias del usuario decaen tras

cada sesioacuten

hllog2

tt ep)fol(pkk

minussdot= (59)

donde hl es un paraacutemetro que mide el intervalo de vida [Kazunari 2004]

En este caso el perfil de usuario P que se calcula al final de cada sesioacuten vendriacutea

determinado para forall sub Psj por la foacutermula (57) anterior y para forall nsub Psj por la foacutermula

(510) siguiente

ktp

ktp

Pj+1 = fol( Pj) para forall nsub Psj (510) kt

p

521 Consideracioacuten de los resuacutemenes opcionales de las noticias en la construccioacuten

del perfil de usuario

Algunas noticias pueden tener un resumen asociado Este elemento es opcional y no estaraacute

presente necesariamente en todas las noticias que se recuperen Auacuten asiacute se plantea la

posibilidad de contar con dicha informacioacuten extra en el proceso de elaboracioacuten automaacutetica

del perfil de usuario La cuestioacuten seraacute determinar si esta ampliacioacuten de informacioacuten

asociada a un titular aportaraacute o no beneficios al perfil de usuario y por ello al

funcionamiento del sistema propuesto

Utilizando el modelo vectorial en este caso para los titulares que posean un

resumen asociado se consideraraacute un vector caracteriacutestica wh formado a partir de los

77

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

teacuterminos que aparezcan en el tiacutetulo de la noticia y un vector caracteriacutestica whr formado a

partir de los teacuterminos que aparezcan en el resumen asociado

Asiacute definimos Srj (j = 1 2hellip R) como el nuacutemero de titulares con resumen

asociado que ha elegido el usuario en la sesioacuten j Para cada sesioacuten se elaboraraacute un perfil Pr

con los teacuterminos de los resuacutemenes mediante el siguiente proceso En primer lugar

denotaremos el vector caracteriacutestica whr del resumen asociado a un titular h (h = 1 2hellip Srj)

como sigue

(511) )ww(ww hrt

hrt

hrt

hrv21

=

donde v es el nuacutemero de distintos teacuterminos en el resumen asociado al titular h y tk

denota cada teacutermino Utilizando el esquema tf de la frecuencia del teacutermino cada elemento

de whr se define como sigue hrtk

w

sum =

= v

1s shr

khrhrt

tftf

wk

(512)

donde tfhrk es la frecuencia del teacutermino tk en el resumen r asociado al titular h

Entonces definimos a Pr como

(513) )prpr(prPv21 tttr =

y definimos cada elemento utilizando la foacutermula (512) como sigue ktpr

sum=

=j

kk

Sr

1h

hrt

jt w

Sr1pr (514)

78

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Cada usuario seguiraacute Srj titulares con resumen asociado en cada sesioacuten Ese valor Srj

seraacute diferente seguacuten el usuario Por tanto normalizaremos utilizando Srj como se

muestra en la ecuacioacuten (514) kt

pr

Entonces si se considera la utilizacioacuten de los resuacutemenes opcionales de las noticias

en la confeccioacuten del perfil de usuario seraacute necesario ampliar la foacutermula (57) anterior

Ahora el perfil Pj+1 que se confeccionaraacute al finalizar la sesioacuten j+1 vendraacute dado por las

siguiente foacutermula

Pj+1 = (a Pj + b Psj) + Prj para forall sub Psj (515) kt

p

donde a y b son constantes que satisfacen a + b = 1

53 Caacutelculo de la puntuacioacuten de los titulares

Para calcular la puntuacioacuten asociada a un titular h compararemos su correspondiente

vector caracteriacutestica donde m es el nuacutemero de teacuterminos distintos en el

titular h y tk denota cada teacutermino con el perfil de usuario donde n es el

nuacutemero de teacuterminos distintos y tk denota cada teacutermino

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

La similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del titular

h se calcularaacute seguacuten la siguiente foacutermula de la medida del coseno discutida en la

seccioacuten 221 de esta tesis y propuesta por [Salton 1989]

hw

h

hh

wPwP)wsim(Psdotsdot

= =sum sumsum= =

=

sdot

sdotm

1k2m

1kht

2t

m

1khtt

kk

kk

(w(p

wp

)) (516)

El valor de similitud obtenido mediante la ecuacioacuten (516) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se ordenaraacuten para

cada usuario de acuerdo con su perfil mostraacutendole en primer lugar aquellos cuya

puntuacioacuten sea mayor

79

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

A continuacioacuten se expondraacute un ejemplo de caacutelculo de la puntuacioacuten de un titular

con la intencioacuten de clarificar la manera en que el sistema la lleva a cabo Para maacutes sencillez

se consideraraacute una noticia sin resumen asociado y no se va a considerar ninguacuten factor de

olvido

Suponemos que el usuario ha seleccionado el siguiente titular h=ldquoLos anunciantes

apuestan por los blogsrdquo El sistema descartaraacute las palabras vaciacuteas ldquoLosrdquo ldquoporrdquo y ldquolosrdquo

Entonces se consideraraacuten los siguientes 3 teacuterminos del titular h t1=ldquoanunciantesrdquo

t2=ldquoapuestanrdquo y t3=ldquoblogsrdquo

Seguacuten las foacutermulas 51 y 52 el vector caracteriacutestica del titular h seraacute

wh= ( = 033 = 033 = 033) 1t

ps 2tps3t

ps

Ahora suponemos que se tienen los siguientes valores en el perfil de usuario

correspondientes a los teacuterminos del titular h

P= ( = 003 = 001 = 009) 1t

p2t

p3tp

La puntuacioacuten del titular h respecto al perfil de usuario P utilizando la foacutermula de la

medida del coseno (516) se calcularaacute de la siguiente manera

)wsim(P h =)()(

)()()(222222 090010030330330330

090330010330030330++sdot++

sdot+sdot+sdot = 079

Entonces podemos decir que la similitud o puntuacioacuten entre el titular h y el perfil

de usuario P en este ejemplo es de 079

80

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

531 Puntuacioacuten alternativa de los titulares

Otra forma de calcular la puntuacioacuten asociada a un titular h puede realizarse utilizando la

medida o coeficiente de Jaccard visto en la seccioacuten 221 de la tesis y propuesto por

[Salton 1989]

Asiacute dado el correspondiente vector caracteriacutestica del titular h

donde m es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino y el perfil de usuario

donde n es el nuacutemero de teacuterminos distintos y tk denota cada teacutermino

entonces la similitud sim(Pwh) entre el perfil de usuario P y el vector caracteriacutestica del

titular h se podraacute calcular seguacuten la siguiente foacutermula de la medida de Jaccard

)ww(ww ht

ht

ht

hm21

=

)pp(pPn21 ttt=

hw

=)wsim(P h

sum sumsumsum

= ==

=

sdotminussdot

sdotm

1k

m

1khtt

2m

1kht

2t

m

1khtt

kkkk

kk

wp)(w)(p

wp (517)

El valor de similitud obtenido mediante esta ecuacioacuten (517) seraacute la puntuacioacuten del

titular h seguacuten el perfil de usuario P Entonces los titulares de noticias se podraacuten ordenar

para cada usuario mostraacutendole en primer lugar aquellos con mayor puntuacioacuten

54 Descripcioacuten general del sistema NectaRSS

Apoyaacutendonos en la elaboracioacuten automaacutetica del perfil de usuario descrita en la seccioacuten 52

y considerando el sistema de puntuacioacuten de titulares expuesto en la seccioacuten 53 se propone

un sistema de recomendacioacuten de noticias recuperadas de la Web

Inicialmente el sistema NectaRSS se aplicaraacute a la elaboracioacuten de un agregador

inteligente de noticias procedentes de la Web en diversos formatos como RSS1 o Atom2

De esta manera tendraacute un aspecto y un funcionamiento similar a la mayoriacutea de agregadores

tiacutepicos vistos en la seccioacuten 2313 de la tesis Una descripcioacuten del programa que lo

implementa puede encontrarse en el Anexo II

1 Para conocer maacutes detalles del lenguaje RSS consultar el apartado AI3 del Anexo I 2 Atom es otra tecnologiacutea para distribuir contenidos Para maacutes informacioacuten consultar el Anexo I

81

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

En este sistema las noticias recuperadas se puntuaraacuten de acuerdo con el perfil de

usuario P y se mostraraacuten ordenadas seguacuten dicha puntuacioacuten de mayor a menor relevancia

Asiacute se pretende aliviar al usuario en la buacutesqueda de informacioacuten

El usuario no se tendraacute que preocupar de nada maacutes que seleccionar aquella

informacioacuten que le interese es decir la realimentacioacuten del sistema seraacute impliacutecita sin

esfuerzo alguno por su parte Para ello se monitorizaraacuten las selecciones que vaya realizando

entre el conjunto de titulares de noticias que se le ofrecen Con estas selecciones se iraacute

confeccionando el perfil de la sesioacuten Ps definido en la expresioacuten (53) Al teacutermino de cada

sesioacuten se acumularaacute el perfil de sesioacuten Ps al perfil de usuario P definido en la expresioacuten

(55) mediante la foacutermula (57)

Opcionalmente el sistema puede utilizar un factor de olvido definido en la foacutermula

(59) asumiendo que ciertas preferencias del usuario decaen tras cada sesioacuten

El perfil P se utilizaraacute para puntuar los distintos titulares tal y como se explica en la

seccioacuten 53 utilizando la foacutermula (516)

Si en la confeccioacuten del perfil de usuario se consideran ademaacutes los teacuterminos que

aparecen en los resuacutemenes opcionales de las noticias entonces se emplearaacute la foacutermula

(515) en lugar de la (57) a fin de acumular al perfil de usuario P tanto el perfil de sesioacuten Ps

como el perfil Pr elaborado con los teacuterminos de los resuacutemenes y definido en la expresioacuten

(513)

541 Caracteriacutesticas singulares del sistema

NectaRSS recoge algunas propuestas de [Kazunari 2004] como la elaboracioacuten incremental

del perfil de usuario de manera impliacutecita y la presentacioacuten de la informacioacuten adaptada seguacuten

dicho perfil utilizando para ello una medida de similitud definida en la foacutermula (516) Sin

embargo NectaRSS tiene varias diferencias significativas el perfil de usuario se va

elaborando al final de cada sesioacuten utilizaacutendose exclusivamente para personalizar la

informacioacuten ofrecida en la siguiente sesioacuten y cada sesioacuten es independiente de las otras sin

distincioacuten alguna del diacutea en que se han efectuado Asiacute el caacutelculo incremental del perfil de

usuario resulta maacutes sencillo

Ademaacutes NectaRSS distingue entre la informacioacuten del titular de una noticia y la

informacioacuten opcional asociada a dicho titular en forma de resumen de esa noticia

reflejaacutendolo entonces en la construccioacuten del perfil de usuario mediante la foacutermula (515)

82

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

Desde el punto de vista de los sistemas de recomendacioacuten vistos en la seccioacuten

2312 de la tesis NectaRSS ofrece un enfoque distinto al de [Garciacutea 2002] orientado al

comercio electroacutenico al del [SIRLE 2003] que realiza recomendaciones en base a las

similitudes entre usuarios y respecto a [Merelo et al 2004] que recurre a encuestas para

conocer las preferencias de los usuarios NectaRSS puede recomendar una serie de noticias

a un usuario concreto utilizando exclusivamente su perfil elaborado automaacuteticamente

Por otra parte NectaRSS se ha aplicado en el aacutembito de los agregadores de noticias

utilizaacutendose para crear un agregador inteligente que recupera filtra y recomienda

informacioacuten procedente de fuentes previsiblemente heterogeacuteneas presentaacutendola ordenada

seguacuten las preferencias de cada usuario En dicho aacutembito no se conoce actualmente

ninguna aplicacioacuten similar con estas funciones

55 Resumen

En este capiacutetulo se han expuesto las bases teoacutericas de un sistema de recomendacioacuten

de informacioacuten denominado NectaRSS La pretensioacuten general de este sistema es aliviar a

los usuarios en la tarea de encontrar la informacioacuten que demandan

NectaRSS se basa en la construccioacuten automaacutetica e incremental de un perfil de

usuario en base a las distintas selecciones de titulares de noticias que vaya realizando tal

usuario Dicho perfil se utilizaraacute en cada sesioacuten para puntuar las noticias recuperadas por el

sistema con el objetivo de ofrecerlas ordenadas al usuario seguacuten esa puntuacioacuten calculada

Si se considera que las preferencias del usuario decaen tras cada sesioacuten se plantea

un factor de olvido opcional que se aplicaraacute a la actualizacioacuten del perfil de usuario al finalizar

cada sesioacuten con el sistema

Ademaacutes tambieacuten se propone el uso del resumen opcional de las noticias para

ldquoenriquecerrdquo el perfil de usuario con nuevos teacuterminos al teacutermino de cada sesioacuten

Para representar las noticias y el perfil de usuario se utilizaraacute el modelo vectorial

propuesto por Salton [Salton 1971 1983] Los elementos del vector caracteriacutestica de cada

titular se calcularaacuten mediante el esquema tf o de la frecuencia del teacutermino

Finalmente para calcular la puntuacioacuten de cada titular se compararaacute su

correspondiente vector caracteriacutestica con el perfil de usuario utilizando la medida del

coseno [Salton 1989] o de manera alternativa utilizando la medida de Jaccard [Salton

1989]

83

NECTARSS UN SISTEMA DE RECOMENDACIOacuteN BASADO EN PERFILES

84

Capiacutetulo 6

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA

PROPUESTO

En este capiacutetulo se especifican las principales tareas llevadas a cabo para evaluar

experimentalmente el sistema NectaRSS y se detallan las medidas utilizadas Se comienza

exponiendo el esquema general de la experimentacioacuten en la seccioacuten 61 y la metodologiacutea

seguida en la seccioacuten 62 Posteriormente se comentan las estrategias empleadas para dicha

experimentacioacuten en la seccioacuten 63 distinguiendo dos fases principales la primera para

determinar ciertos paraacutemetros de funcionamiento del sistema y la segunda para probar el

sistema con distintos usuarios En esta misma seccioacuten se muestra el tratamiento de las

palabras y se describen los experimentos efectuados

En la seccioacuten 64 se proponen distintas medidas para valorar el comportamiento del

sistema incluyendo tasas especiacuteficas y medidas tales como el Error Medio Absoluto la

Correlacioacuten entre titulares y la R-Precisioacuten

61 Objetivo general del sistema y esquema de su experimentacioacuten

El objetivo de nuestro estudio seraacute el desarrollo de un sistema para la recuperacioacuten y el

filtrado inteligente de informacioacuten de la Web que recomiende noticias a un usuario en base

a su perfil adquirido automaacuteticamente de tal manera que dichas recomendaciones

satisfagan las necesidades informativas del usuario encontrando eacuteste maacutes raacutepida y

faacutecilmente la informacioacuten que demande

Para poder verificar este objetivo ha sido necesario disentildear las siguientes tareas

1 Confeccioacuten automaacutetica e incremental de un perfil de usuario basado en sus

elecciones y caacutelculo de una puntuacioacuten asociada a cada titular de

informacioacuten recuperado en base al perfil de usuario descritas en el capiacutetulo 5

2 Caacutelculo de diversas medidas para la evaluacioacuten del sistema en la seccioacuten 64

de este capiacutetulo incluyendo

85

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

minus Tasas basadas en la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus El Error Medio Absoluto y su Desviacioacuten Estaacutendar basados en las diferencias de

puntuacioacuten entre la informacioacuten que se le ofrece al usuario y la que eacuteste

selecciona

minus La Correlacioacuten o similitud entre las elecciones del usuario y las propuestas

informativas del sistema

minus La R-Precisioacuten [Baeza 1999] o Precisioacuten en la posicioacuten R del orden para

cada sesioacuten con el sistema

3 Determinacioacuten de los valores parameacutetricos maacutes convenientes para el

funcionamiento del sistema Para esta tarea se utilizaraacuten los resultados obtenidos

en los cuatro primeros experimentos propuestos que se describiraacuten en la seccioacuten

632 Los resultados de estos experimentos y los paraacutemetros seleccionados se

expondraacuten en las secciones 71 72 73 y 74 del capiacutetulo siguiente

4 Estimacioacuten del funcionamiento del sistema con diferentes usuarios en base a

las distintas medidas calculadas y prueba de un sistema alternativo de

puntuacioacuten Para estas tareas se utilizaraacuten los resultados obtenidos en los

experimentos quinto y sexto propuestos descritos en la seccioacuten 632 y cuyos

resultados se expondraacuten en los apartados 75 y 76 del capiacutetulo siguiente

62 Metodologiacutea seguida

Tras implementar el sistema descrito en el capiacutetulo 5 utilizando el lenguaje C se

procedioacute a su verificacioacuten y evaluacioacuten Para ello se seleccionoacute la muestra objeto de estudio

formada por diversas fuentes de informacioacuten a partir de las cuales se recuperan titulares de

noticias actualizados Estas fuentes de informacioacuten seleccionadas se muestran en el Anexo

II Se ha procurado cierta variedad temaacutetica y que presentaran actualizaciones frecuentes

La mayoriacutea de las fuentes de informacioacuten seleccionadas emplean el idioma castellano sin

embargo se incluye un pequentildeo porcentaje de fuentes de informacioacuten en idioma ingleacutes

En este punto el sistema se puso a disposicioacuten de cualquier usuario de la Web en

una paacutegina creada a tal efecto comentada en el Anexo II con la intencioacuten de seleccionar

usuarios para su prueba

86

RESULTADOS DE LOS EXPERIMENTOS

Una vez disentildeados los experimentos se preparoacute el sistema para cada uno de ellos y

se llevaron a cabo Los resultados obtenidos se almacenaron en una base de datos en

formato XML1 para su posterior anaacutelisis

El nuacutemero de sesiones de prueba realizadas para cada experimento ha sido de

treinta lo que no responde a un criterio arbitrario sino a una mera exigencia estadiacutestica

Para afirmar que el valor de la media aritmeacutetica de una distribucioacuten de valores representa

fehacientemente a esta distribucioacuten se debe aplicar un contraste parameacutetrico conocido

como la prueba t de Student que exige ese nuacutemero miacutenimo para su realizacioacuten Es por ello

que todos los valores que se ofrecen como resultado de los experimentos han sido

suficientemente contrastados por este meacutetodo

Para cada una de las diferentes sesiones de los experimentos se almacenaraacute en la

base de datos el nombre de cada titular seleccionado su URL el valor de la puntuacioacuten

asignada al titular la posicioacuten en que se ofrece al usuario y el ordinal en que el usuario lo

selecciona Un ejemplo de la base de datos para un titular se muestra en la figura 61

ltSESIOacuteNgt

ltNuacutemero_sesioacutengt9ltNuacutemero_sesioacutengt

ltFecha_sesioacutengt17052005 15050ltFecha_sesioacutengt

ltNuacutemero_titulares_elegidosgt5ltNuacutemero_titulares_elegidosgt

ltNuacutemero_titulares_ofrecidosgt14ltNuacutemero_titulares_ofrecidosgt

ltTitular_sesioacutengt

ltTiacutetulogtMadrid 2012ltTiacutetulogt

ltUrlgthttpwwwecuadernocomarchives000683phpltUrlgt

ltDescripcioacutengtUn grupo de bloguers pone en marcha la bitaacutecora colectiva Madrid 2012 cuyo objetivo fundamental es el apoyo a la candidatura de la ciudad de Madrid para la organizacioacuten de los Juegos Oliacutempicos de 2012 Impulsan la iniciativa Javier MorillaltDescripcioacutengt

ltFechagt2005-05-17T091249+0100ltFechagt

ltValor_Puntuacioacutengt010293992241887566ltValor_Puntuacioacutengt

ltOrden_eleccioacutengt2ltOrden_eleccioacutengt

ltOfrecido_en_Posicioacutengt12ltOfrecido_en_Posicioacutengt

ltPuntuacioacuten_Idealgt073849142501645082ltPuntuacioacuten_Idealgt

ltErrorgt06355515025975752ltErrorgt

ltTitular_sesioacutengt

ltSESIOacuteNgt

Figura 61 Ejemplo de fragmento de la base de datos elaborada por sistema NectaRSS La

ldquoltPuntuacioacuten_Idealgtrdquo seriacutea la que obtendriacutea el titular si se encontrara en el lugar correspondiente al orden

en que el usuario lo ha elegido

1 XML es un lenguaje de marcado creado para organizar el contenido de un documento mediante etiquetas semaacutenticas

87

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Antes de las sesiones de prueba en cada uno de los casos considerados en los

distintos experimentos se realizan dos sesiones de entrenamiento con el sistema con el fin

de inicializar el perfil de usuario correspondiente Al final de cada experimento se analizan

los resultados de la base de datos para verificarlos analizarlos contrastarlos y obtener

conclusiones

63 Estrategias de experimentacioacuten

Se distinguiraacuten dos fases principales en la experimentacioacuten con el sistema propuesto la

primera para determinar los valores de ciertos paraacutemetros iniciales y la segunda para

comprobar el comportamiento del algoritmo en diversos usuarios reales contrastando los

resultados de cada uno de ellos Al comienzo de cada experimento se dispone de un perfil

de usuario vaciacuteo el cual se iraacute elaborando y completando durante las distintas sesiones

Estas fases se describen maacutes detalladamente a continuacioacuten

Fase 1 Consiste en determinar diversos paraacutemetros iniciales del sistema Asiacute

se plantearaacute la conveniencia o no de utilizar los resuacutemenes asociados a ciertos

titulares para la elaboracioacuten del perfil de usuario se probaraacuten distintos valores en el

intervalo de vida del factor de olvido definido en la foacutermula (59) y se plantean distintas

proporciones para la actualizacioacuten del perfil definido en las foacutermulas (57) y (515)

Se realizaraacuten distintas sesiones variando los paraacutemetros Al final de cada

experimento se compararaacuten los resultados para comprobar si existen variaciones

significativas y cuaacutel valor de entre los experimentados arroja mejores resultados

En esta fase los titulares se ofrecen desordenados aleatoriamente para no influir en

las diferentes selecciones de la informacioacuten El usuario que experimentaraacute con el

sistema seraacute el propio autor y la eleccioacuten de las noticias estaraacute determinada por sus

correspondientes preferencias temaacuteticas como cualquier otro usuario real Una

descripcioacuten maacutes detallada de cada uno de los experimentos de esta fase se realiza en

la seccioacuten 632

Fase 2 Analizaraacute el funcionamiento del sistema utilizando los paraacutemetros

determinados en la fase 1 Para ello se efectuaraacuten distintas sesiones con distintos

usuarios reales contrastando los resultados para determinar su validez En esta fase

se le ofreceraacuten a cada usuario una lista de titulares ordenados por puntuacioacuten y eacuteste

iraacute eligiendo los que le interesen La cantidad de titulares ofrecida seraacute tal que

permita al usuario su visualizacioacuten simultaacutenea sin necesidad de realizar

88

RESULTADOS DE LOS EXPERIMENTOS

desplazamientos verticales de la paacutegina Se eligieron 15 usuarios para probar el

sistema con el criterio de que sus intereses temaacuteticos fuesen heterogeacuteneos Tambieacuten

se probaraacuten dos maneras distintas de puntuar la informacioacuten Una descripcioacuten maacutes

detallada de los usuarios experimentales y de los experimentos correspondientes a

esta fase se encuentra en la seccioacuten 632

631 Tratamiento de las palabras

Durante el funcionamiento del sistema cada vez que se elija una noticia cualquiera se

analizaraacuten los teacuterminos que aparezcan en el tiacutetulo y si es el caso los que aparezcan en la

descripcioacuten o resumen de la noticia mediante un sencillo analizador que iraacute extrayendo una

a una todas las palabras

En primer lugar se comprobaraacute si el teacutermino extraiacutedo aporta alguna informacioacuten o

es una palabra vaciacutea2 Para ello se compararaacute cada palabra extraiacuteda con un conjunto estaacutendar

de palabras vaciacuteas formado por 561 palabras del castellano y 547 palabras inglesas de uso

muy comuacuten Estos conjuntos de palabras se han recopilado de diversas fuentes [Neu 2005]

y [Snow 2005] Antes de la comparacioacuten cada palabra se convertiraacute completamente a

minuacutesculas Si dicha palabra pertenece al conjunto de palabras vaciacuteas se descarta Si no es

una palabra vaciacutea se utilizaraacute para ir formando el perfil de usuario antildeadieacutendola al mismo o

modificando sus valores de perfil si ya estaacute contenida

El sistema no consideraraacute nuacutemeros como palabras vaacutelidas pero se permitiraacute su

inclusioacuten en un conjunto de palabras que el sistema consideraraacute necesariamente Tambieacuten

se podraacute forzar al sistema para que excluya las palabras que se deseen

Para evitar palabras erroacuteneas o expresiones que pudieran escaparse a la accioacuten del

analizador se efectuaraacute una limpieza del perfil de usuario despueacutes de cada sesioacuten

comparando cada uno de sus teacuterminos con un denso diccionario de castellano formado

por 650817 palabras y con otro menos denso pero tambieacuten significativo formado por

52016 palabras inglesas Ambos diccionarios se han confeccionado mediante la

herramienta ispell [DATSI 2005]

2 Existen palabras llenas con significado independiente y palabras vaciacuteas aquellas que desempentildean funciones en compantildeiacutea de otras Una definicioacuten de palabra vaciacutea es ldquouna palabra sin significado por siacute misma como los artiacuteculos y preposiciones tambieacuten se denomina una palabra omitidardquo httpwwwedymcombooksespglosariohtm

89

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

632 Descripcioacuten de los experimentos

A continuacioacuten se exponen los distintos experimentos que se efectuaraacuten con el sistema

Los cuatro primeros se corresponden con la primera fase destinada a probar diversos

paraacutemetros del sistema el quinto experimento iraacute destinado a analizar el comportamiento

del algoritmo en distintos sujetos reales para calibrar el sistema en el mundo real y el

uacuteltimo experimento comprobaraacute si se producen diferencias significativas entre dos formas

distintas de puntuar la informacioacuten

Los experimentos se realizaraacuten en base a la informacioacuten que se recupere en cada

sesioacuten procedente de las fuentes de informacioacuten preseleccionadas que se detallan en el

Anexo II En este contexto cada sesioacuten se corresponderaacute temporalmente con un diacutea

diferente de esta manera puede decirse que se utilizaraacuten los titulares de noticias de cada diacutea

Para puntuar la informacioacuten se utilizaraacute inicialmente la medida del coseno propuesta en la

seccioacuten 53 del capiacutetulo 5 Es importante subrayar que los titulares que se empleen en el

primer experimento se iraacuten almacenando para ser utilizados en los siguientes con el objeto

de que en cada sesioacuten correspondiente a cada experimento se dispongan exactamente de

los mismos titulares de noticias

Experimento 1 Con Resumen ndash Sin resumen (CRS)

En este experimento se pretende evaluar coacutemo afecta al funcionamiento del sistema la

consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar el perfil de

usuario (ECON) respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee (ESIN)

Para ello se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 2 Determinacioacuten del Intervalo de Vida (DIV)

Se pretende probar ahora la utilizacioacuten del factor de olvido definido en la foacutermula (59) Se

probaraacute un rango de valores para su intervalo de vida y se analizaraacuten los resultados

obtenidos en cada uno de los casos comparaacutendolos para determinar cuaacutel de los valores

experimentados resulta maacutes beneficioso para el sistema Para este experimento el

90

RESULTADOS DE LOS EXPERIMENTOS

sistema estaraacute configurado con la mejor de las dos estrategias descritas en el

experimento CRS anterior

Los valores que se consideraraacuten en el intervalo de vida son 1 2 3 4 5 6 7 10 20 y

33 Esta muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido tal

y como puede observarse en la figura 62

Representacioacuten del factor de olvido para distintos valores del intervalo de vida

07

075

08

085

09

095

1

105

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33

Intervalo de vida hl

Valo

r

Figura 62 Representacioacuten graacutefica del factor de olvido seguacuten la foacutermula (59) para distintos valores del intervalo

de vida hl

Experimento 3 Importancia Relativa de los Perfiles (IRP)

En los experimentos anteriores la estrategia seguida para calcular el perfil de usuario al

finalizar cada sesioacuten ha sido la de calcular el valor medio entre el perfil de sesioacuten Ps y el

perfil P acumulado en la sesioacuten anterior En este experimento se pretende probar con

distintas importancias relativas para dichos perfiles modificando sus paraacutemetros

multiplicadores tal y como se define en las foacutermulas (57) y (515) Al final del

experimento se analizaraacuten los resultados ofrecidos por las distintas combinaciones

consideradas para determinar cuaacutel de ellas resulta maacutes ventajosa para el sistema

Se probaraacuten los distintos pares de proporciones (a=10 b=90) (a=20 b=80)

(a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y

(a=90 b=10) abarcando uniformemente el intervalo [0 100]

91

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

Experimento 4 Con Resumen ndash Sin resumen (2) (CRS2)

Al igual que en el experimento 1 se pretende evaluar coacutemo afecta al funcionamiento

del sistema la consideracioacuten uacutenica del titular de cada noticia seleccionada para elaborar

el perfil de usuario respecto a la consideracioacuten del titular y de su resumen asociado si

eacuteste lo posee Este experimento seraacute por tanto una repeticioacuten del experimento CRS

pero ahora considerando los paraacutemetros seleccionados en los experimentos 2 y 3 Con

ello se pretenden reconfirmar las conclusiones obtenidas en el primer experimento

Igualmente se mantendraacute una copia del sistema para cada estrategia y se realizaraacuten

exactamente las mismas selecciones de titulares en ambas Finalmente se analizaraacuten los

resultados comparaacutendolos para determinar si se encuentran diferencias significativas

Experimento 5 Prueba del Algoritmo con diferentes Usuarios (PAU)

Considerando los resultados obtenidos en los cuatro experimentos anteriores se

configuraraacute un sistema tipo y se modificaraacute para que presente al usuario una seleccioacuten

de titulares ordenados Este sistema modificado seraacute probado por diversos usuarios

reales que deberaacuten seleccionar cuantos titulares de noticias les resulten de intereacutes en

cada una de las sesiones Al final del experimento se compararaacuten los resultados que se

hayan obtenido para cada uno de ellos para determinar si el sistema posee un

funcionamiento uniforme y vaacutelido Se repetiraacute el experimento configurando el sistema

para que presente al usuario una lista aleatoria de titulares de entre los recuperados en

cada sesioacuten con la intencioacuten de contrastar los resultados anteriores El primer sub-

experimento se denominaraacute ldquoORDENrdquo y el segundo sub-experimento se denominaraacute

ldquoAZARrdquo

En cada sesioacuten del caso ldquoORDENrdquo se le presentaraacuten al usuario una seleccioacuten de 14

titulares ordenados por puntuacioacuten cantidad elegida con la intencioacuten de presentar

simultaacuteneamente dichos titulares al usuario sin que eacuteste deba realizar desplazamiento

vertical alguno seguacuten una resolucioacuten de pantalla concreta Al repetir el experimento la

lista que se le presentaraacute al usuario en el caso ldquoAZARrdquo seraacute de 14 titulares al azar de

entre los recuperados en la sesioacuten

Se seleccionaron 15 usuarios con intereses heterogeacuteneos cada uno de los cuales

debe efectuar 32 sesiones eligiendo la informacioacuten de su intereacutes de entre la ofrecida por

el sistema Las dos primeras sesiones seraacuten de entrenamiento y las 30 sesiones restantes

92

RESULTADOS DE LOS EXPERIMENTOS

proporcionaraacuten los resultados que se exponen en el capiacutetulo 7 Ademaacutes para comparar

estos resultados se realizaraacuten otras 32 sesiones en las que cada usuario elegiraacute los

titulares de su intereacutes entre 14 ofrecidos al azar Es necesario aclarar que en la primera

sesioacuten de cada sub-experimento al no existir perfil de usuario alguno se ofrecen todos

los titulares recuperados

Los usuarios fueron voluntarios anoacutenimos que proporcionaron dos informaciones

baacutesicas sus intereses preferidos recogidos en la tabla 61 y los resultados de cada

experimento

USUARIO INTERESES PREFERIDOS 1 Deportes y artiacuteculos en ingleacutes 2 Internet ldquoblogosferardquo ldquogadgetsrdquo 3 Tecnologiacutea ldquogadgetsrdquo cine 4 Cine y noticias variadas 5 Deportes y cine 6 Sucesos en general y artiacuteculos en ingleacutes 7 Internet software y hardware 8 Artiacuteculos femeninos y ldquoblogsrdquo 9 Noticias cine e Internet en general 10 Economiacutea noticias del Gobierno y generales 11 Deportes 12 Sucesos en general poliacutetica y coches 13 ldquoGadgetsrdquo y ciencia en general 14 Astronomiacutea ciencia e Internet en general 15 Cine y televisioacuten

Tabla 61 Resumen de los intereses preferidos de los usuarios que efectuacutean el experimento 5

Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en

el experimento PAU anterior y eacuteste volveraacute a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto

como medida alternativa en la seccioacuten 531 del capiacutetulo anterior

En las 32 nuevas sesiones el usuario dispondraacute de las mismas noticias que las

empleadas para el experimento 5 donde se utilizoacute la medida del coseno para puntuar la

informacioacuten al objeto de poder comparar sesioacuten por sesioacuten los resultados en ambos

casos Ademaacutes tambieacuten se le ofreceraacuten al usuario en cada sesioacuten 14 titulares ordenados

por puntuacioacuten para que escoja los que sean de su intereacutes

93

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

64 Medidas para la evaluacioacuten experimental del sistema

En este apartado se propondraacuten diversas medidas para cuantificar el funcionamiento del

sistema propuesto intentando reflejar desde diversos puntos de vista su ajuste a las

preferencias del usuario Cuanto maacutes se acerque la recomendacioacuten de titulares ofrecida por

el sistema a la eleccioacuten de titulares que desea realizar el usuario en un momento

determinado mejor seraacute dicha recomendacioacuten Lo ideal es que el sistema mejore su

funcionamiento cuantas maacutes sesiones realice el usuario ofreciendo cada vez mejores

recomendaciones de titulares y por tanto facilitando al usuario el acceso raacutepido a la

informacioacuten que maacutes le interesa

641 Tasas formadas por relaciones entre las variables observables

Durante el funcionamiento del sistema se monitorizaraacuten las elecciones del usuario

almacenaacutendose eacutestas en una base de datos para su posterior anaacutelisis tal y como se mostroacute

en el ejemplo de la figura 61 Determinaremos en esta seccioacuten las principales variables de

intereacutes que se observaraacuten en los distintos experimentos con eacutestas se definiraacuten distintas

medidas o tasas cuyos resultados se analizaraacuten despueacutes de cada experimento para evaluar el

sistema

Sea T el conjunto de titulares de informacioacuten que se le ofrecen a un usuario en

una sesioacuten con el sistema E(T) seraacute el subconjunto de titulares que elige el usuario en

dicha sesioacuten y D(T) el subconjunto de titulares con una puntuacioacuten asociada mayor

que cero en la sesioacuten Entonces E(T) cap D(T) representaraacute el subconjunto de titulares

con puntuacioacuten asociada mayor que cero elegidos por el usuario en una sesioacuten En la

figura 63 se muestran graacuteficamente eacutestos conjuntos Tambieacuten podemos considerar dichos

conjuntos como variables dependientes del sistema

El nuacutemero de titulares de una sesioacuten seraacute una cantidad variable que dependeraacute de

las fuentes de informacioacuten seleccionadas y de los titulares que devuelva cada una de ellas

para esa sesioacuten concreta Tambieacuten se podriacutea fijar una cantidad determinada de titulares para

ofrecer al usuario como sucede en el quinto experimento propuesto descrito en el

apartado 632 Asiacute una variable a considerar por el sistema seraacute el nuacutemero de titulares

que se le ofrecen al usuario o card(T)

En este conjunto de titulares ofrecidos podraacute existir un porcentaje de titulares a los

que el sistema haya otorgado una puntuacioacuten mayor que cero debido a su similitud con el

94

RESULTADOS DE LOS EXPERIMENTOS

perfil de usuario calculada seguacuten las foacutermulas (516) y (517) El nuacutemero de titulares

destacados con puntuacioacuten mayor que cero de entre los que se le ofrecen al usuario

seraacute tambieacuten una variable a considerar su valor seraacute card(D(T))

titulares T

titulares elegidos E(T)

titulares elegidos

destacados E(T) cap D(T)

titulares destacados D(T)

Figura 63 Relaciones consideradas entre los conjuntos de titulares elegidos y destacados comentados en la

seccioacuten 641

En cada sesioacuten con el sistema el usuario elegiraacute los titulares que le interesen por

tanto el nuacutemero de titulares que elija el usuario en una sesioacuten determinada seraacute otra

variable a considerar siendo su valor el de card(E(T))

Por otra parte entre los titulares elegidos por el usuario en una sesioacuten podraacute existir

un porcentaje de ellos que ademaacutes tengan asociada una puntuacioacuten mayor que cero tal

cantidad variable seraacute el nuacutemero de titulares destacados elegidos cuyo valor se

corresponderaacute con card(E(T) cap D(T))

Si relacionamos entre si estas variables podremos definir varias tasas de valor simple

que nos ayuden a evaluar el sistema

Asiacute para cuantificar el porcentaje de titulares elegidos por el usuario en una sesioacuten

respecto a los titulares que se le ofrecen en dicha sesioacuten se define la tasa CP como

95

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

T)T(EC P = (61)

Valores bajos de esta tasa significaraacuten que el usuario elige pocos titulares en la

sesioacuten y valores altos de la tasa significaraacuten que el usuario elige bastantes titulares

Para calcular el porcentaje de titulares ofrecidos al usuario con puntuacioacuten asociada

mayor que cero respecto al total de los titulares que se le ofrecen se define la tasa CR como

T)T(DCR = (62)

Valores altos de esta tasa significaraacuten que se le ofrecen al usuario cantidades altas de

titulares de noticias con puntuacioacuten calculada por el sistema mayor que cero respecto al

total de titulares que se le presentan Valores bajos pueden encontrarse en las sesiones

iniciales debido a que el perfil de usuario se encuentra vaciacuteo o con poca informacioacuten del

usuario

Para estudiar la relacioacuten entre el nuacutemero titulares elegidos por el usuario con

puntuacioacuten asociada mayor que cero y el total de titulares ofrecidos se utilizaraacute la tasa CT

definida como

T

)T(D)T(ECTcap

= (63)

Si el valor de esta tasa es alto significaraacute que el usuario elige bastantes titulares con

puntuacioacuten asociada mayor que cero y si el valor de la tasa es bajo es posible que los

titulares puntuados por el sistema no sean los deseados por el usuario Al igual que sucede

con CR al inicio de los experimentos pueden esperarse valores bajos para esta tasa

En la tabla 62 se muestra un resumen de estas relaciones de cardinalidad entre los

conjuntos de titulares descritos para obtener tasas que cuantifiquen ciertos aspectos del

funcionamiento del sistema

96

RESULTADOS DE LOS EXPERIMENTOS

titulares elegidos titulares

destacados

titulares elegidos

destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 62 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

descritos en la seccioacuten 641 La relacioacuten se establece dividiendo la columna por la fila

642 Puntuacioacuten media de un conjunto de titulares y puntuacioacuten media maacutexima

Como ya se ha comentado cada titular ofrecido por el sistema tendraacute asociada una

puntuacioacuten obtenida al calcular su similitud con el perfil de usuario seguacuten las foacutermulas

(516) y (517) Asiacute aunque en la fase 1 de evaluacioacuten experimental del sistema los titulares

se presentan al usuario desordenados aleatoriamente para no influir en sus decisiones

eacutestos seguiraacuten conservando un orden interno seguacuten esta puntuacioacuten calculada por el

sistema

En cada sesioacuten se le ofreceraacuten al usuario cierta cantidad de titulares o titulares

ofrecidos y eacuteste elegiraacute los que le resulten interesantes los titulares elegidos Es posible

calcular entonces un valor de puntuacioacuten medio ))T(E(p para el conjunto de titulares

escogidos por el usuario Por otra parte tambieacuten se puede calcular un valor )T(p maacuteximo

que se obtendriacutea cuando los N titulares escogidos por el usuario se correspondieran con los

N primeros titulares en orden de puntuacioacuten ofrecidos por el sistema en una sesioacuten

determinada Para cuantificar la relacioacuten entre el valor ))T(E(p de los titulares elegidos

por el usuario y el valor )T(p maacuteximo se define la tasa CD como

)T(p))T(E(pC

maxD = (66)

en donde )T(pmax seraacute la media de los N primeros valores de puntuacioacuten asociados

a los N titulares con mayor puntuacioacuten de entre los ofrecidos al usuario siendo N igual al

nuacutemero de titulares escogidos por el usuario

97

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

643 El Error Medio Absoluto y la Desviacioacuten Estaacutendar del Error

Estos criterios para evaluar el sistema son similares a los utilizados en [Moukas 1996] y en

[Lashkari 1995] Adoptando su notacioacuten en nuestro sistema NectaRSS se asume que el

conjunto C = c1 c2 c3hellip cN representa la puntuacioacuten de un subconjunto de titulares de

noticias ofrecidos al usuario y que el conjunto F = f1 f2 f3hellip fN representa la puntuacioacuten

asociada a los titulares que selecciona el usuario La idea es considerar la seleccioacuten de

titulares como una realimentacioacuten por parte del usuario Entonces se define el conjunto

error E = e1 e2 e3hellip eN y cada elemento de E se calcularaacute seguacuten la expresioacuten ei = ci ndash fi

siendo N el nuacutemero de titulares que escoge el usuario De esta manera consideramos las

dos medidas siguientes

Error Absoluto Medio cuanto menor sea su valor mejor seraacute el rendimiento del

sistema Se calcularaacute seguacuten la foacutermula

N

eE

N

iisum

== 1 (67)

Desviacioacuten Estaacutendar del Error Esta cantidad mediraacute la consistencia del rendimiento

del algoritmo sobre el conjunto de datos Cuanto menor sea su valor mejor seraacute el

algoritmo Se definiraacute como

( )N

EEN

isum=

minus= 1

2

σ (68)

644 La Correlacioacuten entre titulares

En [Moukas 1996] se comparan las puntuaciones asignadas por el sistema Amalthaea a

ciertas paacuteginas web con las realimentaciones proporcionadas por el usuario De manera

anaacuteloga compararemos las puntuaciones asignadas por nuestro sistema NectaRSS a los

titulares de noticias con la realimentacioacuten impliacutecita proporcionada por el usuario al

seleccionar titulares El conjunto C = c1 c2 c3hellip cN representaraacute la puntuacioacuten de un

subconjunto de titulares de noticias ofrecidos al usuario y el conjunto F = f1 f2 f3hellip fN

representaraacute la puntuacioacuten asociada a los titulares que selecciona el usuario Asiacute se define la

siguiente medida

98

RESULTADOS DE LOS EXPERIMENTOS

Coeficiente de Correlacioacuten Se pretende cuantificar la relacioacuten entre la puntuacioacuten de los

titulares ofrecidos al usuario y la puntuacioacuten de los titulares que eacuteste efectivamente

escoge Los valores de este coeficiente estaraacuten comprendidos entre -1 y 1 Cuanto

mayor sea este valor de la correlacioacuten con valores maacutes alejados de cero mejor seraacute

el algoritmo [Hill 1995] Se definiraacute

[ ]

fc

N

iii ffcc

Nr σσ sdot

minussdotminussum= =1

)()(1

(69)

en donde σc y σf representan la desviacioacuten estaacutendar de C y F y el numerador de la

expresioacuten representa la covarianza

645 La R-Precisioacuten

Tal y como se expuso en la seccioacuten 325 del capiacutetulo 3 de acuerdo con [Baeza 1999] se

generaraacute un valor sumario simple para un conjunto de titulares ofrecidos en orden de

puntuacioacuten condicioacuten que sucede en los experimentos quinto y sexto propuestos Para

ello se calcularaacute la precisioacuten en la posicioacuten R del orden siendo R el nuacutemero total de

titulares relevantes de la sesioacuten en nuestro caso el nuacutemero de titulares que elija el usuario

entre los ofrecidos por el sistema

Asiacute por ejemplo si R es igual a 6 y el usuario ha elegido tres titulares entre los seis

primeros ofrecidos se tendraacute una R-Precisioacuten de 05 al dividir los 3 titulares relevantes para

el usuario entre los 6 elegidos en total Esta medida se utilizaraacute para observar el

comportamiento del algoritmo para cada sesioacuten i del experimento

El valor de la R-Precisioacuten podraacute definirse en este caso como

))T(E(card))T(E(posR)i(RP

i

i= (610)

en donde posR(E(Ti)) seraacute el nuacutemero de titulares elegidos entre los R primeros

titulares ordenados ofrecidos al usuario en la sesioacuten i y el valor de card(E(Ti)) seraacute igual al

nuacutemero total de titulares elegidos en dicha sesioacuten

99

EVALUACIOacuteN EXPERIMENTAL DEL SISTEMA PROPUESTO

65 Resumen

Se comienza el capiacutetulo exponiendo el esquema general de la experimentacioacuten seguido para

verificar nuestro objetivo desarrollar un sistema de recomendacioacuten de informacioacuten que la

presente ordenada al usuario en base a su perfil elaborado automaacuteticamente y que este

sistema sea ventajoso para sus necesidades informativas Para evaluar el funcionamiento del

sistema se calcularaacuten diversas medidas basadas fundamentalmente en las elecciones que

realice el usuario y en la puntuacioacuten que el sistema haya otorgado a cada informacioacuten

Respecto a la metodologiacutea seguida primero se implementoacute el sistema propuesto en

el capiacutetulo 5 para proceder posteriormente a su verificacioacuten y evaluacioacuten Para ello se

seleccionoacute una muestra de estudio compuesta por distintas fuentes de informacioacuten y se

realizaron diversos experimentos analizando al final de cada uno de ellos los resultados

obtenidos para valorar el funcionamiento del sistema propuesto

En la experimentacioacuten se distinguen dos fases principales la primera destinada a

determinar empiacutericamente ciertos paraacutemetros del sistema y la segunda orientada a probar

el funcionamiento del sistema con usuarios reales Se llevaron a cabo seis experimentos los

cuatro primeros englobados en la fase 1 el quinto experimento destinado a probar el

comportamiento del sistema con diferentes usuarios lo que supone una calibracioacuten en el

mundo real y el sexto experimento donde se prueba una manera alternativa de puntuar la

informacioacuten En la realizacioacuten de todos estos experimentos se efectuacutea un tratamiento

adecuado de las palabras o teacuterminos que iraacuten conformando el perfil de usuario eliminando

las palabras vaciacuteas y contabilizando las que se vayan considerando

Despueacutes de describir los experimentos se proponen diversas tasas y medidas para

cuantificar el funcionamiento del sistema un grupo de ellas basadas en los conjuntos de

titulares de noticias que se consideraraacuten en cada sesioacuten tasas CP CR y CT y otras

relacionadas con la puntuacioacuten que el sistema asocia a los titulares en funcioacuten de su

similitud con el perfil de usuario Entre eacutestas uacuteltimas se considera la tasa CD el Error

Absoluto Medio su Desviacioacuten Estaacutendar y la Correlacioacuten entre titulares Otra medida utilizada es

la R-Precisioacuten o precisioacuten en la posicioacuten R del orden con la que puede observarse el

comportamiento del sistema en cada una de las sesiones de los experimentos 5 y 6

mediante un valor simple

100

Capiacutetulo 7

RESULTADOS DE LOS EXPERIMENTOS

En este capiacutetulo se presentan los distintos experimentos realizados descritos en la seccioacuten

632 del capiacutetulo anterior indicando los paraacutemetros a establecer y los valores numeacutericos

obtenidos Los resultados se representan graacuteficamente y se comentan describiendo lo que

se ve y a queacute conclusiones se llegan por su anaacutelisis La funcioacuten del capiacutetulo seraacute por tanto

comprobar la efectividad del sistema NectaRSS analizando los valores obtenidos por las

medidas que evaluacutean su funcionamiento

En concreto en la seccioacuten 71 se presentan los resultados obtenidos para el

experimento CRS destinado a determinar si es ventajosa la consideracioacuten de los resuacutemenes

opcionales de las noticias para la elaboracioacuten del perfil de usuario En la seccioacuten 72 se

presentan los resultados del experimento DIV en el que se prueba el uso de un factor de

olvido de los intereses del usuario En la seccioacuten 73 se exponen los resultados para el

experimento IRP donde se prueban distintos porcentajes para el perfil de sesioacuten y el perfil

acumulado del usuario En la seccioacuten 74 se muestra el experimento CRS2 anaacutelogo al CRS

pero utilizando los valores de los paraacutemetros determinados en los anteriores experimentos

En la seccioacuten 75 se prueba el sistema con diversos usuarios reales experimento PAU

analizando el comportamiento del sistema desde perspectivas diferentes y finalmente en el

experimento PPA de la seccioacuten 76 se comparan dos maneras de puntuar la informacioacuten

mediante la medida del coseno y mediante la medida de Jaccard

71 Experimento 1 Con Resumen ndash Sin Resumen (CRS)

Este experimento descrito en la seccioacuten 632 evaluacutea coacutemo afecta al funcionamiento del

sistema la consideracioacuten o no de los resuacutemenes opcionales asociados a ciertas noticias para

la elaboracioacuten del perfil de usuario Para ello se analizan los resultados obtenidos mientras

se consideraban los resuacutemenes asociados sub-experimento que se denota por ECON y

los resultados obtenidos sin su consideracioacuten sub-experimento que se denota por ESIN

101

RESULTADOS DE LOS EXPERIMENTOS

Se utilizan las tasas CP CR y CT que se han definido en la seccioacuten 641 de esta tesis y

que se resumen en la tabla 71 Ademaacutes se utiliza la tasa CD definida en la seccioacuten 642 que

se basa en el valor de puntuacioacuten que el sistema asigna a los titulares

Para comparar los resultados de ambos sub-experimentos en la tabla 72 se

muestran los valores medios de las tasas calculadas en cada una de las 30 sesiones

experimentales y se representan graacuteficamente estos valores medios junto con su desviacioacuten

estaacutendar en los graacuteficos de las figuras 71 72 y 73

titulares elegidos titulares destacados

titulares elegidos destacados

titulares Tasa CP Tasa CR Tasa CT

Tabla 71 Tasas formadas a partir de las relaciones de cardinalidad entre los distintos conjuntos de titulares

considerados La relacioacuten se establece dividiendo la columna por la fila

Experimento CRS ndash Valores medios de las tasas calculadas Caso

CP CR CT CD

ECON 02312 06292 01572 05646

ESIN 02312 04248 01269 05192

Tabla 72 Valores medios obtenidos para las distintas tasas consideradas en el experimento 1 despueacutes de 30

sesiones experimentales

En la tasa CP definida por la foacutermula 61 se obtienen valores ideacutenticos en ambos

casos considerados ECON y ESIN debido a que se repite la misma seleccioacuten de titulares

por ello no se tendraacute en cuenta Para la tasa CR definida en la foacutermula (62) se comprueba

que se obtienen mayores valores para el caso ECON tal y como puede apreciarse en la

figura 71 Esta es una consecuencia loacutegica ya que al considerar los resuacutemenes asociados a

los titulares de noticias el perfil de usuario se enriquece con muchas maacutes palabras que si no

se consideran eacutestos Al finalizar la sesioacuten experimental 30 se obtuvieron 5342 teacuterminos en

el perfil asociado al caso ECON en contraste con la cantidad de 1248 teacuterminos para el

perfil asociado al caso ESIN De esta manera se obtienen maacutes titulares de noticias con

alguna puntuacioacuten pues seraacute maacutes probable que en ellos se encuentre alguna de las palabras

del perfil con maacutes teacuterminos Por el mismo motivo se observan mayores valores medios en

el caso ECON para la tasa CT definida en la foacutermula (63) y representada en la figura 72

102

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CR para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

09Va

lor

Figura 71 Comparacioacuten de los valores medios obtenidos por la tasa CR calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

Valores medios de la tasa CT para los casos ECON y ESIN del experimento 1

000

005

010

015

020

025

Valo

r

ECON ESIN

Figura 72 Comparacioacuten de los valores medios obtenidos por la tasa CT calculada cuando el sistema utiliza los

resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Se representa ademaacutes

su desviacioacuten estaacutendar Se observa un mayor valor de la tasa para el caso ECON que para el caso ESIN

103

RESULTADOS DE LOS EXPERIMENTOS

Para la tasa CD foacutermula (64) se observa un valor medio superior para el caso

ECON como puede verse en la figura 73 Esta tasa CD tiene una naturaleza diferente a las

anteriores ya que lo que ahora se estaacute comparando en ambos casos es la puntuacioacuten

media asociada a la informacioacuten que selecciona el usuario respecto a la puntuacioacuten media

maacutexima ideal que se conseguiriacutea si eacuteste seleccionara la informacioacuten mejor puntuada tal y

como se define en la foacutermula (64)

Valores medios de la tasa CD para los casos ECON y ESIN del experimento 1

ECON ESIN00

01

02

03

04

05

06

07

08

Valo

r

Figura 73 Comparacioacuten de los valores medios obtenidos por la tasa CD calculada cuando el sistema utiliza

los resuacutemenes asociados a los titulares (ECON) respecto a cuando no se utilizan (ESIN) Junto a cada valor

medio se muestra su desviacioacuten estaacutendar El valor medio para el caso ECON es mayor

Para comprobar si existen diferencias significativas entre los dos tratamientos del

perfil de usuario ECON y ESIN se utilizaraacute la prueba t-Student con las dos series de datos

obtenidas para la tasa CD a lo largo de todas las sesiones consideradas Se aplicaraacute la prueba

estadiacutestica de Kolmogorov-Smirnov a cada uno de los grupos de datos para comprobar su

normalidad condicioacuten indispensable para aplicar el test de Student

Los resultados obtenidos para la prueba se muestran en la tabla 73 El resultado de

00025 obtenido para el test de Student con t = 3312 y 29 grados de libertad se considera

104

RESULTADOS DE LOS EXPERIMENTOS

muy significativo Por lo tanto se considera que si existen diferencias significativas entre el

caso ECON y el caso ESIN seguacuten la tasa CD

Paraacutemetros ECON ESIN

Media 05646 05192

Muestra 30 30

Desviacioacuten Estaacutendar 01740 01934

P del test de Normalidad 00572 gt010

Test t-Student (2 colas) 00025

Tabla 73 Resultados estadiacutesticos obtenidos para los grupos de valores de los casos ECON y ESIN

destacando el valor de la prueba t -Student para la tasa CD

Comprobando los distintos resultados cabe preguntarse queacute es lo que importa en la

praacutectica que el usuario disponga de mayor nuacutemero de titulares de noticias puntuados

hecho reflejado en la tasa CR con lo que es maacutes probable que elija precisamente esos

titulares hecho que se refleja en la tasa CT o que el usuario vaya eligiendo los titulares con

mejor puntuacioacuten En el primer caso la cantidad de titulares puntuados va a depender

directamente del tamantildeo en palabras del perfil de usuario asiacute cuanto maacutes se utilice el

sistema mayor seraacute dicho perfil y mayor cantidad de titulares se puntuaraacuten Las tasas CR y

CT nos pueden dar una idea sobre todo de la densidad del perfil de usuario pero no

ofreceraacuten demasiada informacioacuten acerca de la calidad de las noticias que se le proporcionan

al usuario Por supuesto los titulares puntuados contendraacuten teacuterminos del perfil y se puede

esperar que sean de intereacutes para dicho usuario pero las palabras pueden variar de

significado seguacuten el contexto y por ello no estaacute garantizado que todo titular puntuado sea

de intereacutes

En el segundo caso la tasa CD debe reflejar cuaacutendo se realizan selecciones de

titulares con buena puntuacioacuten esto implica por una parte que el usuario ha elegido las

noticias mejor puntuadas por el sistema es decir que la puntuacioacuten otorgada por el sistema

a esas noticias resulta vaacutelida para ese usuario y por otra parte si un usuario elige una

noticia bien puntuada es maacutes probable que esa noticia sea realmente de su intereacutes puesto

que algunos o todos los teacuterminos del titular deben encontrarse bien valorados en su perfil

105

RESULTADOS DE LOS EXPERIMENTOS

Por ello la tasa CD nos proporcionaraacute maacutes informacioacuten acerca del funcionamiento

del sistema resultando ademaacutes bastante maacutes independiente respecto al tamantildeo en palabras

del perfil de usuario que el resto tasas consideradas asiacute se tendraacuten en cuenta especialmente

sus resultados

Se puede afirmar que se requiere mayor esfuerzo computacional para manipular el

perfil de usuario elaborado considerando los resuacutemenes opcionales de las noticias

estrategia ECON respecto a su no consideracioacuten estrategia ESIN Esto se debe a la mayor

cantidad de teacuterminos que formaraacuten parte del perfil en el primer caso Sin embargo la

mayor cantidad de palabras consideradas en un perfil permite puntuar mayor nuacutemero de

titulares de noticias tal y como se ha comprobado en las tasas CR y CT analizadas lo que a

su vez conduce a que el usuario acabe eligiendo maacutes noticias con puntuacioacuten mayor que

cero

Asimismo se observa un mejor valor medio para la tasa CD en la estrategia ECON

respecto a la estrategia ESIN y dada la representatividad de esta tasa sobre el

funcionamiento del algoritmo se comproboacute mediante el test t-Student que siacute existiacutean

diferencias significativas entre ambas estrategias Por tanto se consideraraacute como mejor

estrategia para el sistema propuesto la consideracioacuten de los resuacutemenes opcionales de las

noticias en la elaboracioacuten incremental y automaacutetica del perfil de usuario basado en su

historial de navegacioacuten Esta caracteriacutestica se mantendraacute durante los siguientes

experimentos

72 Experimento 2 Determinacioacuten del intervalo de vida (DIV)

En este experimento descrito en la seccioacuten 632 se prueba el uso de un factor de olvido

foacutermula (59) utilizando distintos valores para su intervalo de vida hl Para ello se realizaron

30 sesiones experimentales considerando distintos valores para hl 1 2 3 4 5 6 7 10 20 y

33 La muestra se fundamenta en la raacutepida tendencia a la unidad del factor de olvido como

puede observarse en la figura 62 del capiacutetulo 6 Ademaacutes se considera el caso en que el

sistema no utiliza ninguacuten factor de olvido denotando los resultados con SINfol

Se emplearaacute como criterio principal de anaacutelisis la tasa CD ya que el resto de tasas

consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea de los casos debido a que

en cada sesioacuten se realizan exactamente las mismas elecciones de titulares para cada valor de

hl sin que ello suponga variacioacuten alguna en el tamantildeo del perfil de usuario a diferencia del

experimento 1 anterior

106

RESULTADOS DE LOS EXPERIMENTOS

Los valores medios obtenidos para la tasa CD en los distintos casos considerados

despueacutes de 30 sesiones experimentales con el sistema se muestran en la tabla 74 En la

figura 74 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 2 ndash Valor medio de la tasa CD

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=10 hl=20 hl=33 SINfol

04882 05336 05510 05616 05650 05670 05681 05654 05648 05673 05652

Tabla 74 Valores medios obtenidos para la tasa CD en el experimento 2 despueacutes de 30 sesiones

experimentales con el sistema con distintos valores para el intervalo de vida hl y sin considerar un factor de olvido

SINfol

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento DIV

hl=1 hl=2 hl=3 hl=4 hl=5 hl=6 hl=7 hl=8 hl=9 hl=10 SIN fol02

03

04

05

06

07

08

Valo

r

Figura 74 Comparacioacuten de valores medios obtenidos en la tasa CD para distintos valores del intervalo de vida

hl Se muestra ademaacutes el valor medio obtenido cuando no se utiliza una funcioacuten de olvido SINfol Se observan

valores medios de la tasa muy similares a partir de hl=4 y para el caso SINfol

Se observa que los resultados obtenidos por la tasa CD para los distintos valores del

intervalo de vida hl son bastante similares La mejor media entre las series de datos se ha

calculado para un intervalo de vida ldquohl=7rdquo Esta media sin embargo resulta similar a la

obtenida en el caso en el que no se considera ninguacuten factor de olvido SINfol Para

107

RESULTADOS DE LOS EXPERIMENTOS

comprobar si existen diferencias significativas entre ambos casos se aplicaraacute a las dos series

de datos la prueba t-Student Se usaraacute la prueba estadiacutestica de Kolmogorov-Smirnov con cada

uno de los grupos de datos para comprobar su normalidad condicioacuten indispensable para

aplicar la prueba t- Student

Los resultados obtenidos para la prueba se muestran en la tabla 75 El resultado de

06292 obtenido para el test de Student con t = 04880 y 29 grados de libertad se considera

no significativo Por lo tanto se considera que no existen diferencias significativas entre la

consideracioacuten de un factor de olvido con intervalo de vida ldquohl= 7rdquo y la no consideracioacuten

de tal factor de olvido seguacuten la tasa CD

Paraacutemetros Factor de olvido

con hl=7

Sin factor de

olvido

Media 05681 05652

Muestra 30 30

Desviacioacuten Estaacutendar 01500 01387

P del test de Normalidad gt010 gt010

Test t-Student (2 colas) 06292

Tabla 75 Resultados estadiacutesticos obtenidos para la serie de datos cuando se considera un factor de olvido con

intervalo de vida hl= 7 y la serie de datos cuando no se considera un factor de olvido destacando el valor de la

prueba t -Student para la tasa CD

Teniendo en cuenta el resultado de la prueba t-Student que indica la no existencia de

diferencias significativas para los casos considerados la adopcioacuten de un factor de olvido

con un intervalo de vida hl = 7 no debe variar significativamente los resultados del sistema

pero si que supone el caacutelculo de mayor nuacutemero de operaciones pues al final de cada sesioacuten

se deberaacuten actualizar la mayoriacutea de los teacuterminos del perfil de usuario con dicho factor Es

por ello que se optaraacute por la opcioacuten maacutes simple la de no considerar un factor de olvido en el

proceso incremental de elaboracioacuten del perfil de usuario Esta caracteriacutestica se mantendraacute

durante los siguientes experimentos

108

RESULTADOS DE LOS EXPERIMENTOS

73 Experimento 3 Importancia Relativa de los Perfiles (IRP)

Este experimento descrito en la seccioacuten 632 de la tesis evaluacutea coacutemo afecta en el

rendimiento del sistema la consideracioacuten de distintas proporciones para el caacutelculo del perfil

de usuario acumulado al final de cada sesioacuten tal y como se describe en la foacutermula (515)

Las proporciones vienen dadas por los paraacutemetros a y b Un valor mayor para el paraacutemetro

a enfatizaraacute el perfil acumulado y un valor mayor para el paraacutemetro b enfatizaraacute el perfil

elaborado por la sesioacuten en curso

Asiacute se han probado distintos pares de proporciones para dichos paraacutemetros

durante 30 sesiones experimentales del sistema (a=10 b=90) (a=20 b=80) (a=30 b=70)

(a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) y (a=90 b=10)

Como en el experimento 2 se ha utilizado como criterio principal de evaluacioacuten la

tasa CD El resto de tasas consideradas tomaraacuten valores totalmente ideacutenticos en la mayoriacutea

de los casos puesto que en cada sesioacuten se realizan exactamente las mismas elecciones de

titulares para cada par de valores considerados sin que ello suponga variacioacuten alguna en el

tamantildeo del perfil de usuario Los valores medios obtenidos para esta tasa CD en los

distintos casos considerados despueacutes de 30 sesiones experimentales se muestran en la

tabla 76 En la figura 75 se representan estos valores junto con su desviacioacuten estaacutendar

Experimento 3 ndash Valor medio de la tasa CD considerando distintos pares (a b)

(1090) (2080) (3070) (4060) (5050) (6040) (7030) (8020) (9010)

06186 06240 06283 06306 06319 06315 06286 06223 06123

Tabla 76 Valores medios obtenidos para la tasa CD en el experimento 3 despueacutes de 30 sesiones

experimentales con el sistema con distintos pares de valores para los paraacutemetros a y b

En la figura 75 se observan valores bastante cercanos de la tasa CD para todos los

casos considerados Sin embargo la mejor media se ha calculado para el par (a=50 b=50)

La consideracioacuten de cualquier otro par de valores de entre los experimentados no tiene

ninguacuten efecto en el nuacutemero de operaciones necesarias para calcular el perfil de usuario

despueacutes de cada sesioacuten Por ello se escogeraacute el par de valores que ofrece la mejor media

para el coeficiente CD lo que indicaraacute maacutes selecciones de titulares con buena puntuacioacuten

auacuten cuando la media siendo irrelevante la aplicacioacuten de un test t-Student para determinar si

existen diferencias significativas entre las distintas series de valores

109

RESULTADOS DE LOS EXPERIMENTOS

Asiacute en los siguientes experimentos se utilizaraacute la proporcioacuten 50 para ambos

paraacutemetros a y b lo que efectivamente equivale a calcular la media entre el perfil de sesioacuten

Ps y el perfil acumulado P tal y como se define en la foacutermula (515)

Valores medios en 30 sesiones experimentales obtenidos para la tasa CD en el experimento IRP

(a=10 b=90) (a=20 b=80) (a=30 b=70) (a=40 b=60) (a=50 b=50) (a=60 b=40) (a=70 b=30) (a=80 b=20) (a=90 b=10)040

045

050

055

060

065

070

075

080

Valo

r

Figura 75 Valores medios de la tasa CD para distintos pares de proporciones en el caacutelculo del perfil de

usuario despueacutes de 30 sesiones experimentales con el sistema La media maacutes elevada se obtiene para el par

(a=50 b=50) Se indica ademaacutes la desviacioacuten estaacutendar para cada media

74 Experimento 4 Con Resumen ndash Sin Resumen (2) (CRS2)

Este experimento expuesto en la seccioacuten 632 pretende evaluar nuevamente coacutemo afecta

al sistema la consideracioacuten o no de los resuacutemenes opcionales de las noticias para la

elaboracioacuten del perfil de usuario La intencioacuten es confirmar los resultados obtenidos en el

experimento 1 Se considera importante esta confirmacioacuten de las conclusiones debido a las

diferentes consecuencias que sobre el perfil de usuario tienen ambos casos considerados

Se utilizaraacuten los valores de los paraacutemetros determinados experimentalmente seguacuten

los experimentos 2 y 3 que son la no consideracioacuten de un factor de olvido y la proporcioacuten

50 para los paraacutemetros a y b de la foacutermula (515)

Se analizaraacuten los resultados calculados para la tasa CD durante 30 sesiones

experimentales con el sistema considerando el caso que denotaremos por ECON2

110

RESULTADOS DE LOS EXPERIMENTOS

cuando se tienen en cuenta los resuacutemenes opcionales y el caso ESIN2 cuando no se

utilizan estos resuacutemenes en la elaboracioacuten del perfil de usuario Esta tasa es la que se

muestra maacutes independiente respecto a variaciones en tamantildeo del perfil como ya se ha

observado en el experimento 1

A diferencia de los experimentos anteriores donde se obtuvieron valores medios en

este experimento se va a considerar la evolucioacuten de la tasa CD a lo largo de las 30 sesiones

para comparar su tendencia en cada caso Asiacute en la figura 76 se muestran los resultados

obtenidos por dicha tasa en cada una de las sesiones para los dos casos considerados

middotrdquoECON2rdquo y ldquoESIN2rdquo junto con la liacutenea de tendencia de cada uno ldquoLineal(ECON2)rdquo y

ldquoLineal(ESIN2)rdquo Estas liacuteneas de tendencia se calculan por el meacutetodo de miacutenimos

cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la pendiente y b es la interseccioacuten

Experimento 4 - Resultados para la tasa CD

Lineal (ECON2) y = 00004x + 06538

Lineal (ESIN2) y = -00027x + 06788

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

ECON2 ESIN2 Lineal (ECON2) Lineal (ESIN2)

Figura 76 Resultados obtenidos para la tasa CD durante 30 sesiones experimentales considerando los

resuacutemenes opcionales de las noticias ldquoECON2rdquo y sin considerarlos ldquoESIN2rdquo Se observa que la liacutenea de

tendencia correspondiente al caso ldquoECON2rdquo ldquoLineal(ECON2)rdquo es maacutes favorable

Observamos que entre las dos liacuteneas de tendencia de la figura 76 correspondientes

a las series de datos ldquoECON2rdquo y ldquoESIN2rdquo resulta maacutes favorable la correspondiente a la

serie ldquoECON2rdquo ldquoLineal(ECON2)rdquo debido a que su pendiente es positiva frente a la

111

RESULTADOS DE LOS EXPERIMENTOS

pendiente de ldquoLineal(ESIN2)rdquo con valor negativo que indicariacutea una tendencia negativa a lo

largo de las sesiones para este segundo caso

Estos resultados nos confirman las conclusiones obtenidas para el experimento 1

donde se afirmaba mejor la estrategia en la que se considera el resumen opcional de las

noticias para ir elaborando el perfil de usuario Es decir se tendraacuten en cuenta los teacuterminos

de los resuacutemenes opcionales asociados a los titulares que seleccione el usuario en cada

sesioacuten con el sistema

75 Experimento 5 Probar Algoritmo con diferentes Usuarios (PAU)

En este experimento se evaluaraacute el funcionamiento del sistema propuesto con diferentes

usuarios Puede considerarse como una calibracioacuten del meacutetodo en el ldquomundo realrdquo Los

resultados nos daraacuten una idea de la eficacia del sistema NectaRSS y ayudaraacuten a confirmar su

adecuado funcionamiento como sistema de recomendacioacuten de informacioacuten para distintos

usuarios

Partiendo de los resultados obtenidos en los cuatro experimentos anteriores se

configuroacute un sistema tipo con los mejores valores experimentales y se modificoacute para que

presentara al usuario en cada sesioacuten una seleccioacuten de 14 titulares ordenados por

puntuacioacuten cantidad elegida en base a la intencioacuten de presentar simultaacuteneamente dichos

titulares al usuario seguacuten una resolucioacuten de pantalla concreta sin que eacuteste deba realizar

desplazamiento vertical alguno

Cada uno de los 15 usuarios voluntarios efectuoacute 2 sesiones de entrenamiento y 30

sesiones experimentales eligiendo la informacioacuten de su intereacutes de entre la ofrecida por el

sistema En las sesiones experimentales el sistema sigue elaborando incrementalmente el

perfil de cada usuario Los intereses de estos usuarios son los mostrados en la tabla 61 del

capiacutetulo anterior Ademaacutes para comparar los resultados los participantes realizaron otras

30 sesiones de prueba en las que cada usuario teniacutea que elegir los titulares de su intereacutes

entre 14 ofrecidos al azar Es necesario aclarar que en la primera sesioacuten de cada sub-

experimento al no existir perfil de usuario alguno se ofrecen todos los titulares

Los resultados obtenidos para las distintas tasas y medidas consideradas se recogen

en las tablas y graacuteficos de las secciones siguientes

112

RESULTADOS DE LOS EXPERIMENTOS

751 Comparacioacuten de Tasas

En la tabla 77 se recogen los valores numeacutericos obtenidos para las tasas CT y CD en la

sesioacuten experimental 30 del experimento para los 15 usuarios En las figuras 77 y 79 se

representan estos resultados Tambieacuten se han calculado los valores medios para estas tasas

en las 30 sesiones experimentales Dichos valores se exponen en la tabla 78 y se

representan en las figuras 78 y 710 En todas las tablas y graacuteficos se denota por ORDEN

a la serie asociada al sub-experimento en el que se le ofrece al usuario una lista ordenada de

titulares seguacuten su puntuacioacuten y se denota AZAR a la serie asociada al sub-experimento en

el que se le ofrece al usuario una lista de titulares al azar de entre los recuperados en la

sesioacuten

La tasa CR no se ha considerado pues ofrece el valor 1 en todos los usuarios para el

caso ldquoORDENrdquo Esto es debido a que en la sesioacuten 30 todos los titulares aparecen como

destacados para dicho caso Por el mismo motivo no ha considerado la tasa CP que ofreceraacute

los mismos resultados que la tasa CT para el caso ldquoORDENrdquo

Experimento 5 ndash Valores obtenidos para CT y CD en la sesioacuten 30 por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0714 0286 0429 0571 0714 0357 0357 0500 0643 0643 0714 0571 0500 0500 0357

CT AZAR 0286 0143 0071 0214 0143 0286 0143 0143 0143 0286 0143 0214 0071 0143 0071

CD ORDEN 0936 0876 0939 0866 0890 0817 0847 0838 0972 0871 0974 0852 0822 0915 0927

CD AZAR 0725 0426 0097 0238 0489 0580 0634 0241 0479 0250 0536 0709 0635 0535 0022

Tabla 77 Valores obtenidos para las tasas CT y CD por los quince usuarios experimentales en la sesioacuten 30 en

los casos ldquoORDENrdquo y ldquoAZARrdquo

Experimento 5 ndash Valores medios obtenidos para CT y CD por 15 usuarios tasa

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

CT ORDEN 0726 0300 0414 050 0743 0402 0412 0340 0564 0574 0757 0495 0338 0355 0267

CT AZAR 0138 0062 0093 0233 0195 0198 0095 0100 0179 0183 0136 0193 0086 0067 0062

CD ORDEN 0876 0773 0901 0849 0915 0756 0871 0691 0872 0853 0918 0799 0696 0773 0845

CD AZAR 0265 0222 0361 0531 0310 0615 0360 0287 0430 0383 0390 0610 0310 0262 0298

Tabla 78 Valores medios obtenidos para las tasas CT y CD por los quince usuarios en las 30 sesiones

experimentales distinguiendo los casos ldquoORDENrdquo y ldquoAZARrdquo

113

RESULTADOS DE LOS EXPERIMENTOS

Observando el graacutefico de la figura 77 donde se representan los valores obtenidos

por 15 usuarios para la tasa CT en la sesioacuten experimental 30 y el graacutefico de la figura 78

donde se representan los valores medios calculados para dicha tasa en las 30 sesiones

experimentales vemos que para todos los usuarios se han obtenido mayores valores para el

caso ldquoORDENrdquo que ofrece los titulares ordenados por puntuacioacuten respecto al caso

ldquoAZARrdquo que ofrece los titulares al azar a cada usuario Esto significa que en el caso

ldquoORDENrdquo el usuario elige maacutes titulares de noticias que el sistema ha puntuado Es decir

mayor cantidad de titulares que el sistema evaluacutea como interesantes seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo mejores titulares seguacuten el

intereacutes del usuario

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CT obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CT para todos usuarios en la sesioacuten experimental 30 es de

0524 en el caso ldquoORDENrdquo y de 0167 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CT de 314 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo

Asimismo se tiene que el valor medio de la tasa CT para todos los usuarios en las 30

sesiones experimentales es de 0479 en el caso ldquoORDENrdquo y de 0135 en el caso ldquoAZARrdquo

Entonces se constata que el valor medio de CT en las 30 sesiones es un 355 mayor en el

caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Observando el graacutefico de la figura 79 donde se representan los valores obtenidos

por 15 usuarios para la tasa CD en la sesioacuten experimental 30 y el graacutefico de la figura 710

donde se representan los valores medios calculados para dicha tasa vemos que para todos

los usuarios se han obtenido mayores valores para el caso ldquoORDENrdquo que ofrece los

titulares ordenados por puntuacioacuten respecto al caso ldquoAZARrdquo que ofrece los titulares al

azar a cada usuario Esto significa que en el caso ldquoORDENrdquo los titulares que elige el

usuario tienen mayor puntuacioacuten que los que elige en el caso ldquoAZARrdquo Es decir mayor

cantidad de titulares que el sistema califica con una buena puntuacioacuten seguacuten el perfil del

usuario seraacuten efectivamente interesantes para tal usuario puesto que los selecciona Asiacute

podemos afirmar que el sistema ofrece en el caso ldquoORDENrdquo titulares mejor puntuados

seguacuten el intereacutes del usuario

114

RESULTADOS DE LOS EXPERIMENTOS

Valores de la tasa CT en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 77 Resultados obtenidos en la sesioacuten experimental 30 para la tasa CT por 15 usuarios cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CT es mayor en el caso ldquoORDENrdquo para todos los usuarios

Valores medios de la tasa CT en 30 sesiones experimentales para 15 usuarios

21 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

USUARIOS

Valo

r

ORDEN AZAR

Figura 78 Valores medios de la tasa CT obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

115

RESULTADOS DE LOS EXPERIMENTOS

A diferencia de la anterior tasa analizada CT donde soacutelo se teniacutea en cuenta si los

titulares teniacutean o no puntuacioacuten para la tasa CD se compara la puntuacioacuten media de los

titulares elegidos por el usuario con la puntuacioacuten media ideal que sucederiacutea cuando el

usuario escogiese todos los titulares recomendados por el sistema De esta manera se

obtiene otro punto de vista orientado a medir no la cantidad sino la calidad en teacuterminos

de puntuacioacuten de las elecciones del usuario respecto a las recomendaciones del sistema

Para cuantificar la mejora del sistema en el caso ldquoORDENrdquo respecto al caso

ldquoAZARrdquo se compararaacuten los valores medios de la tasa CD obtenidos en ambos casos tanto

para la sesioacuten 30 como cuando se consideran las medias de las 30 sesiones experimentales

El valor medio de la tasa CD para todos usuarios en la sesioacuten experimental 30 es de

0889 en el caso ldquoORDENrdquo y de 0440 en el caso ldquoAZARrdquo En la sesioacuten 30 se constata

por tanto un incremento de valor medio de la tasa CD de 202 para el caso ldquoORDENrdquo

respecto al caso ldquoAZARrdquo Asimismo se tiene que el valor medio de la tasa CD para todos

los usuarios en las 30 sesiones experimentales es de 0826 en el caso ldquoORDENrdquo y de 0376

en el caso ldquoAZARrdquo Entonces se constata que el valor medio de CD en las 30 sesiones es un

220 mayor en el caso ldquoORDENrdquo que el correspondiente al caso ldquoAZARrdquo

Valores de la tasa CD en la sesioacuten experimental 30 para 15 usuarios

00

02

04

06

08

10

12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

ORDEN AZAR

Figura 79 Resultados obtenidos por 15 usuarios para la tasa CD en la sesioacuten experimental 30 cuando se

ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso ldquoAZARrdquo En

dicha sesioacuten 30 el valor de CD es mayor en el caso ldquoORDENrdquo para todos los usuarios

116

RESULTADOS DE LOS EXPERIMENTOS

Valores medios de la tasa CD en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

02

04

06

08

10

12

USUARIOS

Valo

r

ORDEN AZAR

Figura 710 Valores medios de la tasa CD obtenidos por 15 usuarios despueacutes de 30 sesiones experimentales

cuando se ofrecen los titulares ordenados caso ldquoORDENrdquo y cuando los titulares se ofrecen al azar caso

ldquoAZARrdquo Para todos los usuarios se observa un valor maacutes alto de la tasa en el caso ldquoORDENrdquo

752 Error Absoluto Medio y Coeficiente de Correlacioacuten

En la seccioacuten 751 anterior se ha visto la idoneidad del caso ldquoORDENrdquo donde se

presentan los titulares de noticias ordenados por puntuacioacuten al usuario respecto al caso

ldquoAZARrdquo donde se le presentan los titulares en orden aleatorio al usuario Las siguientes

medidas se aplicaraacuten por tanto a dicho caso ldquoORDENrdquo por ser el de mayor intereacutes y

porque para su aplicacioacuten seraacute necesario un orden de la informacioacuten que se ofrece

En la tabla 79 se recogen los valores numeacutericos obtenidos en la sesioacuten

experimental 30 para los 15 usuarios en el Error Absoluto Medio E definido en la foacutermula

(67) y en su Desviacioacuten Estaacutendar σ definida en la foacutermula (68) En la figura 711 se

representan estos resultados

En la tabla 79 tambieacuten se muestran los resultados obtenidos en la sesioacuten

experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten r entre titulares definido en

la foacutermula (69) En la figura 712 se representan los resultados de este coeficiente

117

RESULTADOS DE LOS EXPERIMENTOS

Experimento 5 ndash Valores obtenidos para E σ y r en la sesioacuten 30 por 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

E 0062 0095 0210 0123 0144 0244 0193 0173 0224 0206 0026 0197 0158 0073 0051

σ 0020 0068 0118 0037 0028 0029 0075 0083 0077 0050 0024 0034 0034 0038 0019

r 0971 0987 0622 0995 0933 0878 0958 0911 0666 0698 0989 0942 0958 0973 0999

Tabla 79 Valores obtenidos para el Error Absoluto Medio su Desviacioacuten Estaacutendar y el Coeficiente de Correlacioacuten

entre titulares en la sesioacuten experimental 30 por 15 usuarios

Error Absoluto Medio y Desviacioacuten Estaacutendar en la sesioacuten experimental 30 para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 media000

005

010

015

020

025

030

035

USUARIOS

Valo

r

Figura 711 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Error Absoluto Medio y

la Desviacioacuten Estaacutendar del Error Se observan valores bajos para el Error Absoluto Medio con una media inferior

a 015 y una Desviacioacuten Estaacutendar media inferior a 005

Se observan valores bajos para el Error Absoluto Medio en los distintos usuarios

experimentales Ninguno de estos usuarios ha llegado a alcanzar el valor de 025

obtenieacutendose en varios casos valores cercanos a cero como sucede con los usuarios 1 2

11 14 y 15 Este hecho se interpreta como un buen funcionamiento del sistema para todos

los usuarios Asimismo el valor medio de este Error Absoluto Medio para todos los usuarios

118

RESULTADOS DE LOS EXPERIMENTOS

es menor que 015 con una Desviacioacuten Estaacutendar media inferior a 005 lo cual refuerza la

conclusioacuten anterior

Coeficiente de Correlacioacuten en la sesioacuten experimental 30 para 15 usuarios

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

USUARIOS

Valo

r

Figura 712 Resultados obtenidos en la sesioacuten experimental 30 por 15 usuarios para el Coeficiente de Correlacioacuten

entre titulares Se observa que los valores de este coeficiente se aproximan a 1 para todos los usuarios

En el graacutefico de la figura 712 se observa que los valores del Coeficiente de Correlacioacuten

entre titulares se aproximan a 1 para todos los usuarios obteniendo la mayoriacutea de los

usuarios un resultado superior a 09 Ademaacutes ninguacuten usuario ha obtenido para el coeficiente

un valor menor de 06 Estos hechos indican que en general la puntuacioacuten de los titulares

propuestos es cercana a la de los que efectivamente elige el usuario en cada sesioacuten

753 La R-Precisioacuten

Esta medida propuesta por [Baeza 1999] y definida en la foacutermula (610) tambieacuten se aplicaraacute

al caso ldquoORDENrdquo como sucediacutea en la seccioacuten 752 anterior Esto es debido a que el

caacutelculo de la R-Precisioacuten necesita un conjunto de titulares de noticias ordenados para poder

calcular entonces la precisioacuten en la posicioacuten R del orden

119

RESULTADOS DE LOS EXPERIMENTOS

La medida se utiliza para observar el comportamiento del algoritmo en cada sesioacuten

del experimento Asiacute se ha calculado un valor de la R-Precisioacuten para las 30 sesiones

experimentales efectuadas por los usuarios con el sistema en las que se han ofrecido los

titulares ordenados al usuario

En la tabla 710 se recogen los valores medios para la R-Precisioacuten obtenidos por los

15 usuarios considerados en las 30 sesiones experimentales Estos resultados se representan

en la figura 713

Experimento 5 ndash Valores medios de la R-Precisioacuten en 30 sesiones para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

R-Precisioacuten 0756 0492 0724 0607 0762 0449 0646 0406 0666 0644 0770 0552 0451 0504 0665

Tabla 710 Valores medios obtenidos por la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

Valores medios de la R-Precisioacuten en 30 sesiones experimentales para 15 usuarios

1 2 3 4 5 6 7 8 9 10 11 12 13 14 1500

01

02

03

04

05

06

07

08

09

10

USUARIOS

Valo

r

Figura 713 Valores medios obtenidos para la R-Precisioacuten por 15 usuarios en 30 sesiones experimentales con el

sistema La media mayor es la del usuario 11 y la menor es la del usuario 8

En el graacutefico de la figura 713 se observan buenos valores medios de la R-Precisioacuten

para la mayoriacutea de usuarios ya que cuando eacutesta supera el valor de 05 puede afirmarse que

maacutes de la mitad de los titulares que haya escogido el usuario estaraacuten en el intervalo [1 R]

120

RESULTADOS DE LOS EXPERIMENTOS

del orden siendo R el nuacutemero de titulares que elige el usuario en la sesioacuten Ninguacuten usuario

ha obtenido un valor medio de la R-Precisioacuten menor que 04 siendo el valor miacutenimo el de

0406 obtenido por el usuario 8 Varios usuarios han superado un valor medio de 07 para

la medida siendo la mejor media la del usuario 11 con un valor de 0770 La R-Precisioacuten

media para el resto de usuarios se encontraraacute entre estos dos valores miacutenimo y maacuteximo

Aunque las medias anteriores arrojan buenos resultados la verdadera utilidad de la

R-Precisioacuten reside en observar su comportamiento a lo largo de las distintas sesiones

experimentales con el sistema Para comparar la R-Precisioacuten a lo largo de las 30 sesiones

experimentales se ha elegido el usuario con peor media el 8 y el usuario con mejor media

para esta medida el 11

En la figura 714 se representan graacuteficamente los valores de la R-Precisioacuten obtenidos

por los usuarios 8 y 11 en las 30 sesiones experimentales junto con la liacutenea de tendencia

de cada uno ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo Estas liacuteneas de tendencia se

calculan por el meacutetodo de miacutenimos cuadrados seguacuten la ecuacioacuten y = mx + b donde m es la

pendiente y b es la interseccioacuten

Valores de la R-Precisioacuten a lo largo de 30 sesiones experimentales para dos usuarios

y = 00058x + 03154

y = 00132x + 05664

00

01

02

03

04

05

06

07

08

09

10

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

SESIONES

Valo

r

Usuario 8 Usuario 11 Lineal (Usuario 8) Lineal (Usuario 11)

Figura 714 Resultados obtenidos por el usuario 8 y por el usuario 11 para la R-Precisioacuten a lo largo de 30

sesiones experimentales junto con las liacuteneas de tendencia de los datos Se observa en ambos casos una

evolucioacuten favorable de la R-Precisioacuten

121

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 714 se observa una tendencia de incremento del valor de

la R-Precisioacuten a lo largo de las distintas sesiones efectuadas La pendiente de la liacutenea de

tendencia de cada usuario ldquoLineal(Usuario 8)rdquo y ldquoLineal(Usuario 11)rdquo es positiva en

ambos casos Este hecho se interpreta como un comportamiento positivo del algoritmo

para los usuarios indicando que el sistema ofrece cada vez mejores ordenaciones de

titulares

76 Experimento 6 Probar Puntuacioacuten Alternativa (PPA)

En este experimento se selecciona al usuario que haya arrojado mejores resultados en el

experimento PAU anterior el 11 y eacuteste vuelve a realizar 32 sesiones en el sistema

configurado para puntuar la informacioacuten seguacuten el coeficiente de Jaccard propuesto como

medida alternativa en la seccioacuten 531 del capiacutetulo 5

En las 32 nuevas sesiones con el sistema el usuario dispondraacute de las mismas

noticias que las empleadas para el experimento 5 donde se utilizoacute la medida del coseno

para puntuar la informacioacuten Esto nos permitiraacute comparar los resultados obtenidos por el

usuario 11 para el caso ldquoORDENrdquo del experimento 5 con los resultados que se obtengan

en el experimento 6 utilizando la medida de Jaccard como puntuacioacuten de los titulares De

esta manera se tendraacuten dos casos a considerar COS formado por el conjunto de

resultados obtenidos por el usuario 11 cuando el sistema puntuacutea la informacioacuten mediante

la medida del coseno y JAC formado por el conjunto de resultados obtenidos por el

mismo usuario cuando el sistema utiliza la medida de Jaccard para puntuar la informacioacuten

Los valores numeacutericos obtenidos por el sistema en el caso ldquoJACrdquo para las tasas CP

CR y CT son exactamente iguales a los alcanzados por eacuteste en el caso ldquoCOSrdquo Por ello no

resultaraacute de intereacutes su anaacutelisis La conclusioacuten que se deriva de este hecho es que de alguna

manera el usuario ha escogido los mismos titulares entre los ofrecidos por el sistema en

ambos casos Para ello el sistema habraacute ido ofreciendo al usuario un conjunto de titulares

similar o ideacutentico en el caso ldquoJACrdquo al del caso ldquoCOSrdquo

Para la tasa CD se observaron pequentildeas diferencias entre ambos casos considerados

sin embargo tanto el valor medio de la tasa en las 30 sesiones como el valor obtenido en la

sesioacuten experimental 30 han sido ideacutenticos De este hecho se deduce que en el caso ldquoJACrdquo

la puntuacioacuten media de los titulares que se van escogiendo se aproxima de igual manera a la

puntuacioacuten media ideal que en el caso ldquoCOSrdquo

122

RESULTADOS DE LOS EXPERIMENTOS

Los valores obtenidos para el Error Absoluto Medio en la sesioacuten experimental 30 y los

valores medios en las 30 sesiones son tambieacuten son ideacutenticos en ambos casos lo que indica

que el rendimiento del sistema es similar en el caso ldquoJACrdquo y en el caso ldquoCOSrdquo

En la tabla 711 se muestran los valores obtenidos para el Coeficiente de Correlacioacuten r

en la sesioacuten experimental 30 junto con las medias de esta medida en las 30 sesiones En la

figura 715 se representan graacuteficamente estos datos

Experimento 6 ndash Valores de la Correlacioacuten en la sesioacuten 30 y su medias

caso r r

COS 0989 0964

JAC 0989 0936

Tabla 711 Valores obtenidos por el usuario 11 para el Coeficiente de Correlacioacuten en la sesioacuten experimental 30

junto con sus medias para los casos ldquoCOSrdquo y ldquoJACrdquo

Valores de la Correlacioacuten para el usuario 11 en la sesioacuten experimental 30 junto con su media en los casos COS y JAC

COS media COS JAC media JAC06

07

08

09

10

11

Valo

r

Figura 715 Resultados obtenidos en la sesioacuten experimental 30 por el usuario 11 para el Coeficiente de

Correlacioacuten junto con sus valores medios Se obtiene el mismo valor de Correlacioacuten para los casos ldquoCOSrdquo y

ldquoJACrdquo Se observa un mayor valor medio del coeficiente para el caso ldquoCOSrdquo

123

RESULTADOS DE LOS EXPERIMENTOS

En el graacutefico de la figura 715 se observa que se ha obtenido el mismo valor en la

sesioacuten experimental 30 para los dos casos considerados en el experimento ldquoCOSrdquo y

ldquoJACrdquo Y aunque el valor medio obtenido en las 30 sesiones es algo mayor en el caso

ldquoCOSrdquo concretamente un 105 que en el caso ldquoJACrdquo valores tan cercanos para la

Correlacioacuten indican que en ambos casos el usuario escoge principalmente los titulares bien

puntuados por el sistema

Por uacuteltimo para la R-Precisioacuten se obtuvieron valores ideacutenticos en todas las sesiones

en los dos casos considerados Esto indica que el sistema ha tenido igual comportamiento

al utilizar como puntuacioacuten de los titulares la medida del coseno que al utilizar la medida de

Jaccard

En general se puede concluir que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten de la informacioacuten elegido teniendo maacutes peso la

calidad del perfil de usuario En este sentido teniendo en cuenta los resultados de eacuteste

experimento y los resultados de los anteriores tendraacute bastante influencia la existencia o no

de una palabra en dicho perfil de usuario

77 Resumen

En este capiacutetulo de la Tesis se han mostrado y se han analizado los resultados obtenidos en

los distintos experimentos llevados a cabo para determinar algunos paraacutemetros del sistema

propuesto y su eficacia con diversos usuarios

El primer experimento (CRS) evaluaraacute si es maacutes favorable para el sistema

considerar los resuacutemenes opcionales de las noticias para enriquecer el perfil de usuario con

nuevos teacuterminos de dichos resuacutemenes o si es mejor considerar solamente los teacuterminos de

los titulares Se efectuaron diversas sesiones con ideacutenticas selecciones de titulares en dos

versiones configuradas del sistema una considerando los resuacutemenes y otra sin

considerarlos y se recogieron los valores de las tasas propuestas para su comparacioacuten en

concreto CR CT y CD definidas en las secciones 641 y 642 Se observaron para todas ellas

mejores resultados al considerar los resuacutemenes opcionales de las noticias Para la tasa CD

que ofrecioacute resultados maacutes ajustados entre ambos casos se aplicoacute la prueba t-Student con el

objeto de determinar que efectivamente existen diferencias significativas entre las dos

alternativas experimentadas Asiacute a tenor de los resultados finalmente se escogioacute la opcioacuten

de considerar los resuacutemenes en el proceso de elaboracioacuten del perfil de usuario que se

mantendraacute para el resto de experimentos

124

RESULTADOS DE LOS EXPERIMENTOS

En el segundo experimento (DIV) se probaron diversos valores para el intervalo de

vida que es un componente de un factor de olvido opcional definido en la foacutermula (59) En

este caso se analizaron los resultados obtenidos para la tasa CD pues el resto de las tasas

propuestas toman ideacutenticos valores para este experimento en todos los casos al realizarse

exactamente las mismas selecciones de titulares en cada sesioacuten Examinando los resultados

del experimento se llegoacute a la conclusioacuten de que la adopcioacuten de un factor de olvido no favorece

significativamente al sistema por lo que finalmente se desestimoacute su uso

El tercer experimento considerado (IRP) estaacute orientado a seleccionar la mejores

proporciones consideradas en el caacutelculo del perfil acumulado al teacutermino de cada sesioacuten

seguacuten las foacutermulas (57) y (515) Se probaron distintos pares de valores analizaacutendose los

resultados obtenidos para la tasa CD durante distintas sesiones Aunque con bastantes

similitudes en el comportamiento de los pares considerados experimentalmente se observoacute

la mejor tendencia para las proporciones (a=50 b=50) consideradas como la media

aritmeacutetica entre el perfil de sesioacuten y el perfil acumulado

El cuarto experimento (CRS2) se realiza para reafirmar las conclusiones obtenidas

en el primer experimento (CRS) pero en este caso considerando los valores que se han

determinado empiacutericamente seguacuten los resultados de los experimentos 2 y 3 anteriores En

este caso se analizoacute la evolucioacuten de la tasa CD a lo largo de 30 sesiones experimentales para

los dos casos ya comentados en el experimento 1 Se obtuvieron resultados maacutes favorables

cuando se consideraron los resuacutemenes opcionales de las noticias para ir formando el perfil

de usuario confirmando por tanto las conclusiones del primer experimento

El experimento 5 (PAU) evaluaraacute el funcionamiento del sistema propuesto con

diferentes usuarios pudiendo considerarse como una calibracioacuten del meacutetodo en el ldquomundo

realrdquo Cada usuario efectuoacute 2 sesiones de entrenamiento y 30 sesiones experimentales

Todos los usuarios que se seleccionaron con intereses heterogeacuteneos dispusieron de la

misma coleccioacuten de noticias eligiendo eacutestos las maacutes convenientes a sus correspondientes

necesidades informativas Asiacute en cada sesioacuten se le ofrecioacute a cada usuario una seleccioacuten de

titulares ordenados seguacuten su puntuacioacuten calculada de acuerdo con su perfil de usuario

correspondiente Ademaacutes para poder contrastar los resultados se repitioacute cada sesioacuten con el

sistema configurado para que ofreciera los titulares aleatoriamente al usuario

Para todos los usuarios del experimento 5 se observaron mejores resultados seguacuten

las tasas CT y CD en el caso en que el sistema recomienda una seleccioacuten ordenada de

titulares Se evaluaron otras medidas como el Error Absoluto Medio su Desviacioacuten Estaacutendar y la

125

RESULTADOS DE LOS EXPERIMENTOS

Correlacioacuten entre titulares determinando seguacuten los resultados de las dos primeras un buen

funcionamiento del sistema para todos los usuarios y seguacuten la Correlacioacuten que la

puntuacioacuten que se le otorga a los titulares es cercana a la de los que efectivamente escoge

cada usuario

Otra medida analizada para cada usuario del experimento 5 ha sido la R-Precisioacuten

obtenieacutendose buenos valores medios en general para todos los usuarios De esta medida se

analizoacute tambieacuten su evolucioacuten a lo largo de las 30 sesiones experimentales para dos de los

usuarios el que ofreciacutea la peor media y el que ofreciacutea la mejor Se observoacute en ambos casos

una tendencia positiva de los datos lo que nos permitioacute concluir que el algoritmo tiene un

comportamiento positivo para los usuarios indicando que el sistema ofrece sucesivamente

mejores ordenaciones de titulares

Por uacuteltimo en el experimento 6 (PPA) se proboacute el sistema utilizando una medida

distinta para puntuar la informacioacuten el coeficiente de Jaccard en contraste con la medida

del coseno utilizada en todos los experimentos anteriores Para el usuario con mejores

medias del experimento 5 se obtuvieron resultados praacutecticamente similares para las dos

medidas concluyendo por tanto que el funcionamiento del sistema es bastante

independiente del meacutetodo de puntuacioacuten elegido

126

Capiacutetulo 8

CONCLUSIONES

En el trabajo de tesis doctoral presentado en esta memoria se ha desarrollado un meacutetodo

para crear un sistema de priorizado de informacioacuten perioacutedica procedente de una serie de

fuentes preestablecidas que la presenta a los usuarios en orden de importancia seguacuten sus

preferencias

En la primera parte de este trabajo se estudiaron los sistemas de recuperacioacuten de

informacioacuten y las principales teacutecnicas de evaluacioacuten que se aplican a eacutestos

Posteriormente se describieron los aspectos a tener en cuenta para definir y crear

perfiles de usuario coacutemo adquirir los datos del usuario la representacioacuten del perfil de

usuario y las teacutecnicas de inferencia asociadas

El anaacutelisis de dichos problemas y de los distintos enfoques encontrados en la

bibliografiacutea para resolverlos nos llevoacute a establecer una metodologiacutea de disentildeo y a proponer

un sistema de recuperacioacuten y filtrado de informacioacuten de la Web maacutes concretamente un

agregador inteligente que recomienda contenidos al usuario denominado NectaRSS

Dicho sistema se basa en la utilizacioacuten del modelo vectorial y el esquema tf

descritos en el capiacutetulo 2 y puntuacutea la informacioacuten que se le ofrece al usuario en forma de

titulares de noticias mediante la medida del coseno propuesta por Salton o mediante la

medida de Jaccard

Finalmente el sistema de recomendacioacuten propuesto se evaluoacute experimentalmente y

se comproboacute su validez

Este capiacutetulo es un resumen de los logros aportaciones y posibles liacuteneas de

investigacioacuten a seguir en base a la investigacioacuten realizada con el sistema NectaRSS

127

CONCLUSIONES

81 Principales Aportaciones y Conclusiones

Las principales aportaciones y conclusiones obtenidas quedan resumidas a continuacioacuten

Se ha creado un sistema de filtrado o priorizado de informacioacuten capaz de

recomendar eacutesta a un usuario seguacuten sus preferencias

Se ha desarrollado un meacutetodo automaacutetico para captar las preferencias del usuario y

confeccionar su perfil sin esfuerzo alguno por parte de eacuteste en base a su historial

de seleccioacuten de la informacioacuten ofrecida

Se ha encontrado una forma oacuteptima de crear ese perfil de usuario y de usarlo para

dar la informacioacuten maacutes relevante

Los procesos de adquisicioacuten de preferencias y de puntuacioacuten de la informacioacuten se

realizan de manera totalmente transparente al usuario

Se han evaluado diferentes estrategias y opciones para que el resultado del sistema

sea oacuteptimo

Los paraacutemetros fijados experimentalmente para el sistema son vaacutelidos para

distintos usuarios heterogeacuteneos

Puntuar los titulares seguacuten un perfil de usuario resulta beneficioso ya que las

ordenaciones de informacioacuten que ofrece el sistema al usuario resultan mejores para

eacuteste que un orden aleatorio

Conforme el sistema obtiene maacutes datos de las preferencias del usuario maacutes se

aproxima la puntuacioacuten de los titulares propuestos a la de los que efectivamente

128

CONCLUSIONES

elige el usuario en cada sesioacuten lo que redunda en una mejor ordenacioacuten de los

titulares desde el punto de vista del usuario

El sistema demuestra un funcionamiento adecuado para distintos usuarios

El rendimiento del sistema resulta independiente del meacutetodo de puntuacioacuten de la

informacioacuten elegido

El uso del sistema propuesto proporciona maacutes satisfaccioacuten a un usuario respecto a

sus demandas informativas en comparacioacuten a una presentacioacuten al azar tiacutepica

puesto que cada vez encuentra maacutes faacutecil y raacutepidamente la informacioacuten que

realmente le interesa sin tener que realizar ninguna otra accioacuten adicional

82 Liacuteneas de investigacioacuten futuras

El desarrollo del presente trabajo ha permitido identificar una serie de temas y liacuteneas de

investigacioacuten originales que se considera de intereacutes abordar

Determinar el rendimiento del sistema considerando conjuntos de palabras

encadenadas en la suposicioacuten de que puedan ser maacutes relevantes para el usuario

Comprobar si resulta relevante otorgar mayor puntuacioacuten a las palabras o teacuterminos

que se encuentren en la informacioacuten seleccionada en primer lugar por el usuario en

la suposicioacuten de eacutestos seraacuten maacutes importantes para dicho usuario

Mostrar al usuario cierto porcentaje de titulares de informacioacuten aleatorios en la

suposicioacuten de que se puedan encontrar nuevos temas de intereacutes para dicho usuario

Desarrollar una aplicacioacuten del sistema ldquoon-linerdquo en la que en el servidor web se

mantenga un perfil para cada usuario que visite la paacutegina de los titulares de

129

CONCLUSIONES

informacioacuten con el objeto de personalizar automaacuteticamente dichos titulares la

proacutexima vez que la visite Esta forma de aplicar el sistema NectaRSS resultariacutea de

especial intereacutes en tiendas y perioacutedicos ldquoon-linerdquo

Aplicacioacuten de algoritmos evolutivos y de aprendizaje automaacutetico en la elaboracioacuten

del perfil de usuario

Elaborar y utilizar varios perfiles del usuario para reflejar mejor sus intereses

Antildeadir capacidades ldquosocialesrdquo al sistema teniendo en cuenta por ejemplo la

informacioacuten que eligen las personas en las que el usuario confiacutea o lo que eligen

distintos usuarios con perfiles similares

Utilizar el perfil de usuario para recomendar noticias de otras fuentes diferentes a

las que el usuario haya preseleccionado

130

Bibliografiacutea y Referencias

[Akolulchina y Ganascia 1997] Akolulchina I y Ganascia J 1997 Satelit-Agent An adaptive

interface agent based on learning interface agent technology In A Jameson C Paris and C Tasso

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 22-32

[Albrech et al 1997] Albrech D Zukerman I Nicholson A y Bud A 1997 Towards a

Bayesian model for keyhole plan recognition in large domains In A Jameson C Parisand C Tasso

(ed) Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia

Italy Wien SpringerWienNewYork 365-376

[Alspector et al 1997] Alspector J Kolez A y Karunanithi N 1997 Feature-based and

clique-based user models for movie selection a comparative study User Modeling and User Adapted

Interaction 7(4) 279-304

[Ambrosini et al 1997] Ambrosini L Cirillo V y Micarelli A 1997 A hybrid architecture

for user-adapted information filtering on the WWW In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 59-61

[Ardissono et al 1999] Ardissono L Goy A Meo R y Petrone G 1999 A configurable

system for the construction of adaptive virtual stores World Wide Web 2(3) 143-159

[Arocena 1998] Arocena G Mendelzon A WebOQL Restructuring documents databases and

Webs In Int Conf on Data Engineering pages 24-33 Orlando Florida 1998

[Baeza 1999] Baeza-Yates R and Ribeiro-Neto B Modern information retrieval ACM Press

Addison-Wesley 1999

[Balabanovic 1997] Balavanovic M 1997 An adaptive web page recommendation service In

Proceedings of the 1st International Conference on Autonomous Agents Marina del Rey

USA 378-385

131

BIBLIOGRAFIacuteA Y REFERENCIAS

[Bares y Lester 1997] Bares W y Lester J 1997 Cinematographic user models for automated

real-time camera control in dynamic 3D environments In A Jameson C Parisand C Tasso (ed)

Proceedings of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy

Wien SpringerWienNewYork 215-226

[Bauer 1996] Bauer M 1996 A Dempster-Shapher approach to modeling agent preferences for plan

recognition User Modeling and User Adapted Interaction 5(3-4) 317-348

[Berners 1989] Berners-Lee T Information Management A Proposal CERN 1989

[Blair 1990] Blair DC Language and representation in information retrieval Amsterdam Elsevier

Science Publishers 1990

[Boyle y Encarnaccedilatildeo 1994] Boyle C y Encarnaccedilatildeo A 1994 Metadoc an adaptive hypertext

reading system User Modeling and User Adapted Interaction 4(1) 1-19

[Brajnik y Tasso 1994] Brajnik G y Tasso C 1994 A shell for developing non-monotonic user

modeling systems International Journal of Human-Computer Studies 40 31-62

[Bray 2004] Bray T Paoli J Sperberg-McQueen C M Maler E Yergeau F Extensible

Markup Language 11 W3C Recommendation 4 February 2004 edited 15 April 2004

httpwwww3orgTR2004REC-xml11-20040204

[Breese et al 1998] Breese J Heckerman D y Kadie C 1998 Empirical analysis of

predictive algorithms for collaborative filtering Proceedings of the 14th Annual Conference on

Uncertainty in Artificial Intelligence (UAI-98) Morgan Kaufmann 43-52

[Carrol y Rosson 1987] Carrol J y Rosson M 1987 The paradox of the active user In JM

Carrol (ed) Interfacing thought Cognitive Aspects of Human-Computer Interaction MIT

Press

[Chaffee 2000] Chaffee J Gauch S Personal Ontologies for Web Navigation

Proc 9th Intl Conf on Information and Knowledge Management (CIKM00) McLean

VA Nov 2000 pp 227-234

httpwwwittckueduobiwan

132

BIBLIOGRAFIacuteA Y REFERENCIAS

[Chan 1999] Chan P 1999 A non-invasive learning approach to building web user profiles

Proceedings of the KDD-99 Workshop on Web Analysis and User profiling Computer

Science Florida Institute of Technology Melbourne Australia

httpciteseeristpsueduchan99noninvasivehtml

[Chin 1989] Chin D KNOME modeling what the user knows in UC In A Kobsa and W

Wahlster (eds) User Models in Dialog Systems Springer-Verlag 74-107 1989

[Chowdhury 1999] Chowdhury G G Introduction to modern information retrieval London

Library Association 1999

[Cleverdon et al 1966] Cleverdon CW Mills J Keen M Factors Determining the

Performance of Indexing Systems Vol 1 Design VolII Test Results ASLIB Cranfield Project

Cranfield (1966)

[Cooper 1973] Cooper WS On selecting a Measure of Retrieval Effectiveness Journal of the

American Society for Information Science v 24 March-April 1973 p87-92

[Crabtree y Soltysiak 1998] Crabtree B y Soltysiak S 1998 Identifying and tracking changing

interests International Journal on Digital Libraries 2 (1) 38-53

[Croft 1987] Croft W B Approaches to intelligent information retrieval Information Proccesing

amp Management 23 4 1987 p 249-254

[DATSI 2005] Departamento de Arquitectura y Tecnologiacutea de Sistemas Informaacuteticos

(DATSI) Universidad Politeacutecnica de Madrid httpwwwdatsifiupmes~coes

[De Bra 1994] De Bra P M E Post R D J Searching for arbitrary information in the WWW

The fish search for Mosaic In Proc of the 2nd Int WWW Conference Chicago 1994

httparchivencsauiuceduSDGIT94ProceedingsSearchingdebraarticlehtml

[De la Fuente 1998] De la Fuente P Texto Estructurado en Internet SGML HTML y XML

Dpto Informaacutetica Universidad de Valladolid 1998 Presentado en las VI Jornadas

Iberoamericanas de Informaacutetica Santa Cruz de la Sierra Bolivia del 7 al 11 de Septiembre

de 1998

133

BIBLIOGRAFIacuteA Y REFERENCIAS

[Delgado 1998] Delgado Domiacutenguez A Mecanismos de recuperacioacuten de Informacioacuten en la WWW

Memoria de Investigacioacuten Universitat Illes Balears Mallorca 1998

[Delgado 2001] Delgado Domiacutenguez A Herramientas de buacutesqueda para la WWW

Congreso Internacional Virtual de Educacioacuten CIVE2001 Abril 2001

httpservidortiuibesadelaidaCIVEadecivehtm

[Dominich 2000] Dominich S A unified mathematical definition of classical information retrieval

Journal of the American Society for Information Science 51 (7) 2000 p 614-624

[Feedster 2005] Feedster Search Todayrsquos Internet for listings news and blogs 2005

httpwwwfeedstercom

[Fernaacutendez 1997] Fernaacutendez M Florescu D Levy A Suciu D A query language for a Web-

site management system SIGMOD Record 26(3) 4-11 1997

[Fink et al 1998] Fink J Kobsa A y Nill A 1998 Adaptable and adaptive information

provision for all users including disabled and elderly people The New Review of Hypermedia and

Multimedia 4 163-188

[Frants 1997] Frants VI et al Automated information retrieval theory and methods San Diego

Academic Press cop1997 XIV 365 p

[Garciacutea 2002] Garciacutea FJ Gil AB Personalizacioacuten de Sistemas de Recomendacioacuten Workshop de

Investigacioacuten sobre Nuevos Paradigmas de Interaccioacuten en Entornos Colaborativos

Aplicados a la Gestioacuten y Difusioacuten del Patrimonio Cultural COLINErsquo02 Granada 11-12

Nov de 2002

[Garciacutea et al 2002] Garciacutea F J Gil AB Moreno MN Curto B A Web-Based E-

Commerce Facilitator Intermediary for Small and Medium Enterprises A B2BB2C Hybrid Proposal

In K Bauknecht A Min Tjoa G Quichmayr (Eds) E-Commerce and Web Technologies

Third International Conference EC-Web 2002 Proceedings Lecture Notes in Computer

Science Series Vol LNCS 2455 Springer Verlag (2002) 47-56

134

BIBLIOGRAFIacuteA Y REFERENCIAS

[Goo 2005] Google Directory RSS News Readers Julio de 2005

httpdirectorygooglecomTopReferenceLibrariesLibrary_and_Information_Science

Technical_ServicesCataloguingMetadataRDFApplicationsRSSNews_Readers

[Grossman 1998] Grossman DA and Frieder O Information retrieval algorithms and

heuristics Boston Kluwer Academia Publishers 1998

[Hersovici 1998] Hersovici M Jacobi M Maarek Y S Pelleg D Shtalhaim M Ur S

The shark-search algorithm An application tailored Web site mapping In 7th WWW Conference

Brisbane Australia 1998

[Herwijnen 1994] Herwijnen Eric van Practical SGML 2nd edition Kluwer Academic

Publishers 1994

[Hijikata et al 2001] Hijikata Y Yoshida T y Nishida S 2001 Adaptive hypermedia system

for supporting information providers in directing users through hyperspace Proceedings of the 3rd on

Adaptive Hypertext and Hypermedia at the 12th ACM Conference on Hypertext and

Hypermedia 147-156

[Hill 1995] Hill W Stead L Resenstein R Furnas G Recommending and evaluating choices

in a virtual community of use In Proceedings of CHI 95 Denver CO 1995

[Himmeroder 1997] Himmeroder R Lausen G Ludascher B Schlepphorst C On a

declarative semantics for Web queries In Proc of the Int Conf on Deductive and Object-

Oriented Database (DOOD) pages 386-398 Singapore 1997

[Howe 1997] Howe A Dreilinger D Savvysearch A metasearch engine that learns which search

engines to query AI Magazine 18(2) 19-25 1997

[HTML 1999] HTML 401 Specification Technical report WWW Consortium (W3C) 1999

httpwwww3orgTRhtml401

135

BIBLIOGRAFIacuteA Y REFERENCIAS

[Jameson 1996] Jameson A Numerical uncertainty management in user and student modeling an

overview of systems and issues User Modeling and User-Adapted Interaction 5 (3-4) 193-251

1996

[Kazunari 2004] Kazunari Sugiyama Kenji Hatano Masatoshi Yoshikawa Adaptive Web

Search Based on User Profile Constructed without Any Effort from Users Proceedings of the 13th

international conference on World Wide Web 2004

[Kobsa et al 1994] Kobsa A Muller D y Nill A 1994 KN-AHS an adaptive hypertext

client of the user modeling system BGP-MS Proceedings of the 4th International Conference on

User Modeling 99-105

[Kobsa y Pohl 1995] Kobsa A Koenemann J y Pohl W 1995 The user modeling shell

system BGP-MS User Modeling and User-Adapted Interaction 4 (2) 59-106

[Konstan et al 1997] Konstan J Miller B Maltz D Herlocker J Gordon L y Riedl

J 1997 GroupLens applying collaborative filtering to Usenet news Communications of the ACM

40(3) 77-87

[Korfhage 1997] Korfhage RR Information Retrieval and Storage New York Wiley

Computer Publisher 1997

[Krogsaeter et al 1994] Krogsaeter M Oppermann R y Thomas C 1994 A user interface

integrating adaptability and adaptativity In R Oppermann (ed) Adaptive user support

ergonomic design of manually and automatically adaptable software Lawrence Erlbaum

97-125

[LaMacchia 1997] LaMacchia B The Internet fish construction kit In 6th Int WWW

Conference Santa Clara CA USA 1997

[Lancaster 1993] Lancaster F W and Warner AJ Information Retrieval Today Arlington

Virginia Information Resources 1993

[Lashkari 1995] Lashkari Y Webhound Masterrsquos thesis MIT Media Laboratory 1995

136

BIBLIOGRAFIacuteA Y REFERENCIAS

[Lesh 1995] Lesh N Etzioni O 1995 A sound and fast goal recognizer Proceedings of the

14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 1704-

1710

[Lesh et al 1999] Lesh N Rich C y Sidner C 1999 Using plan recognition in humancomputer

collaboration In J Kay (ed) UM99 User Modeling Proceedings of the 7th International

Conference Springer-Verlag 23-32 httpwwwcsusaskcaUM99Procleshpdf

[Lieberman 1995] Lieberman H 1995 Letizia An agent assists web browsing Proceedings of

the 14th International Joint Conference on Artificial Intelligence IJCAIrsquo95 Montreal 924-

929

[Llidoacute 2002] Llidoacute Escrivaacute D M Extraccioacuten y Recuperacioacuten de Informacioacuten Temporal Tesis

Doctoral Universitat Jaume I Castelloacuten 2002

[Loacutepez 2002] Loacutepez C Guerrero V Moya F Retroalimentacioacuten por relevancia nueva

perspectiva desde la programacioacuten evolutiva Actas I Jorn de Tratamiento y Recuperacioacuten de la

Informacioacuten (JOTRI) 2002

[Maes 1994] Maes P 1994 Agents that reduce work and overload Communications of the

ACM 37 (7) 31- 40

[Maes 1995] Intelligent Software Scientific American vol 273 no 3 pp 84-86

[Meadow 1993] Meadow C T Text Information retrieval Systems San Diego Academic Press

1993

[Martiacutenez 2004] Martiacutenez Meacutendez F J Rodriacuteguez Muntildeoz J V Reflexiones sobre la

evaluacioacuten de los sistemas de recuperacioacuten de informacioacuten necesidad utilidad y viabilidad Anales de

Documentacioacuten Nordm 7 pp 153-170 2004

[Merelo et al 2004] Merelo JJ Carpio J Tricas F Ferreres G Prieto B Recomendacioacuten

de weblogs utilizando reglas de asociacioacuten GT-43 Weblogs iquestun nuevo geacutenero de comunicacioacuten

II Congreso Online del Observatorio para la Cibersociedad Barcelona 2004

137

BIBLIOGRAFIacuteA Y REFERENCIAS

[Middleton 2001] Middleton S De Roure D Shadbolt N Capturing knowledge of user

preferences ontologies in recommender systems In Proceedings of the 1st International Conference

on Knowledge Capture (K-Cap2001) Victoria BC Canada 2001

[Mislevy y Gitomer 1996] Mislevy R y Gitomer D 1996 The role of probability-based

inference in intelligent tutoring systems User Modeling and User Adapted Interaction 5(3-4) 253-

282

[Mitchell et al 1994] Mitchell T Caruana R Freitag D McDermott J y Zabowski D

1994 Experience with a learning personal assistant Communications of the ACM 37 (7) 81-91

[Mizzaro 2002] Mizzaro S Tasso C (2002) Ephemeral and persistent personalization in adaptive

information access to scholarly publications on the Web Artificial Intelligence Laboratory

Department of Mathematics and Computer Science 2002

[Moffat 2003] Moffat Malcolm RSS-a primer for publishers and content providers EEVL

Development Officer Heriot-Watt University Edinburgh UK 2003

[Moukas 1996] Moukas A Maes P Amalthaea An Evolving Multi-Agent Information Filtering

and Discovery System for the WWW MIT Media Laboratory Cambridge USA 1996

[Neu 2005] Institut Interfacultaire Drsquoinformatique University of Neuchatel

httpwwwuninechinfoclef

[Ngu 1997] D Wu X SiteHelper a localized agent that helps incremental exploration of the World

Wide Web In 6th Int WWW Conference Santa Clara CA USA 1997

[OBIWAN 1999] OBIWAN Project University of Kansas 1999

httpwwwittckueduobiwan

[Orwant 1995] Orwant J 1995 Heterogeneous learning in the Doppelganger user model system

User Modeling and User Adapted Interaction 4 (2) 107-130

[Paiva y Self 1995] Paiva A y Self J 1995 Tagus a user and learner modeling workbench User

Modeling and User Adapted Interaction 4 (3) 197-226

138

BIBLIOGRAFIacuteA Y REFERENCIAS

[Paliouras et al 1999] Paliouras G Karkaletsis V Papatheodorou C y Spyropoulos C

1999 Exploiting learning techniques for the acquisition of user stereotypes and communities In J Kay

(ed) UM99 User Modeling Proceedings of the 7th International Conference Springer-

Verlag 45-54

[Pazzani et al 1996] Pazzani M Muramatsu J y Bilsus D 1996 Syskill and Webert

Identifying interesting web sites Proceedings of the 13th National Conference on Artificial

Intelligence AAAIrsquo96 Portly OR 54-61 httpwwwicsuciedu~pazzaniSyskillhtml

[Peacuterez 2000] Peacuterez-Carballo J and Strzalkowski T Natural language information retrieval

progress report Information Processing and Management 36 2000 p 155-178

[Pohl 1998] Pohl W 1998 Logic-based representation and reasoning for shell systems St

Augustin Germany

[Popp y Lodel 1996] Popp H y Lodel D 1996 Fuzzy techniques and user modeling in sales

assistants User Modeling and User Adapted Interaction 5(3-4) 349-370

[Quinlan 1993] Quinlan J R C45 Programs for Machine Learning Kaufmann 1993

[RAE 2003] Real Academia Espantildeola Diccionario de la Lengua Espantildeola En liacutenea

httpwwwraees

[Rafter y Smyth 2001] Rafter R y Smyth B 2001 Passive profiling from server logs in online

recruitment environment Smart Media Institute University College Dublin Ireland

mayacsdepauledu~mobasheritwp01papersrafterpdf

[Raymond 2005] Raymond J Mooney CS 378 Intelligent Information Retrieval and Web Search

httpwwwcsutexaseduusersmooney

[Resnikoff 1976] Resnikoff HL The national need for research in information science ST1 Issues

and Options Workshop House subcommittee on science research and technology

Washington DC Nov 3 1976

139

BIBLIOGRAFIacuteA Y REFERENCIAS

[Rich 1979] Rich E 1979 User modeling via stereotypes Cognitive Science 3 329-354

[Rijsbergen 1979] C J van Rijsbergen Information Retrieval Butterworths London second

edition 1979 httpwwwdcsglaacukKeith

[Robertson 1976] Robertson SE Sparck Jones K Relevance weighting of search terms Journal

of American Society for Information Science 27(3)129-46 1976

[Rocchio 1966] Rocchio JJ Document retrieval systems - optimization and evaluation PhD

Thesis Harvard University Report ISR-10 to National Science Foundation Harvard

Computation Laboratory (1966)

[RSS 2005] RSS at Harvard Law Syndication technology hosted by the Berkman Center

Editor Dave Winer En liacutenea julio de 2005

httpblogslawharvardedutechdirectory5aggregators

[RSSfeeds 2005] RSSfeeds The RSS Atom and XML directory and resource 2005

httpwwwrssfeedscomreadersphp

[Rucker y Polanco 1997] Rucker J y Polanco M J 1997 Siteseer personalized navigation for

the web Communications of the ACM 40(3) 66-73

[Rui 2003] Rui Alexandre P P da Cruz R Garciacutea Pentildealvo F J Alonso Romero L

Perfiles de usuario en la senda de la personalizacioacuten Informe Teacutecnico DPTOIA-IT-2003-001

Enero 2003

[Salton 1971] Salton G The SMART Retrieval System Prentice-Hall 1971

[Salton 1983] Salton G McGill M J Introduction to Modern Information Retrieval Computer

Science Series McGraw-Hill 1983

[Salton 1989] Salton G Automatic Text Procesing ndash The Analysis Transformation and Retrieval of

Information by-Computer Addison-Wesley 1998

140

BIBLIOGRAFIacuteA Y REFERENCIAS

[Saacutenchez 2002] Saacutenchez Fernaacutendez L Delgado Kloos C XML el ASCII del siglo XXI

NOVATICA nordm 158 pag 5-9 2002

[Schafer 2001] Schafer J B Konstan J Riedl J Electronic Commerce Recommendation

Applications Journal of Data Mining and Knowledge Discovery vol 5 Nos 12 (2001) pp

115-152

[Schwab y Kobsa 2002] Schwab I y Kobsa A 2002 Adaptivity through Unobstrusive

Learning KI 3 (2002) Special Issue on Adaptivity and User Modeling

[Selberg 1995] Selberg E Etzioni O Multi-service search and comparison using the MetaCrawler

4th Int WWW Conference 1995

[Serradilla 2005] Serradilla Garciacutea F Sistemas de Recomendacioacuten Escuela Universitaria en

Ingenieriacutea de Sistemas y Automaacutetica UPM Madrid 2005

httpwwwsiaeuiupmesgruposAinfo2pdf

[Shearin y Lieberman 2000] Shearin S y Lieberman H 2000 Intelligent profiling by example

MIT Lab Cambridge USA

[SIRLE 2003] Serradilla Garciacutea F Teruel J SIRLE Sistema Inteligente de Recomendaciones

sobre Literatura en Espantildeol 2003

httppeterpaneuiupmesindexhtml

[Sleeman 1985] Sleeman D 1985 A user modeling front-end subsystem International Journal

of Man-Machine Studies 23 71-88

[Snow 2005] Snowball httpsnowballtartarusorg

[Sparck 1975] Sparck Jones K A performance yardstick for test collections Journal of

Documentation 31(4)266-72 1975

[Sparck 1979] Sparck Jones K Experiments in relevance weighting of search terms Information

Processing and Management 15(3)133-44 1979

141

BIBLIOGRAFIacuteA Y REFERENCIAS

[Sperberg 1996] Sperberg-McQueen C M Burnard L A gentle introduction to SGML

Technical report Text Encoding Initiative 1996

[Strachan et al 2000] Strachan L Andersen J Sneesby M y Evans M 2000 Minimalist

user modeling in a complex commercial software system User Model and User-Adapted Interaction

10 (2-3) 109-146

[Strachan et al 1997] Strachan L Andersen J Sneesby M y Evans M 1997 Pragmatic

user modeling in commercial software system In A Jameson C Paris and C Tasso Proceedings

of 6th International Conference on User Modeling UMrsquo97 Sardinia Italy Wien

SpringerWien NewYork 189-200

[Tague 1994] Tague-Sutcliffe J The pragmatics on information retrieval experimentation revisited

Information Processing and Management 28 4 pp 467-490 1994

[Thomas y Fischer 1996] Thomas C y Fischer G 1996 Using agents to improve the usability

and usefulness of the WWW 5th International Conference on User Modeling 5-12

[Vegas 1999] Vegas Hernaacutendez J Tesis Doctoral Un Sistema de Recuperacioacuten de Informacioacuten

sobre Estructura y Contenido 1999

[Voiskunskii 1997] Voiskunskii V G Evaluation of search results a new approach Journal of

the American Society for Information Science 48(2) 1997 p133-142

[Webb y Kuzmyez 1996] Webb G y Kuzmyez M 1996 Feature based modeling a

methodology for production coherent consistent dynamically changing models of agentrsquos competencies User

Modeling and User Adapted Interaction 5 (2) 117-150

[Winer 2005] Winer D RSS 20 Specification Syndication technology hosted by the

Berkman Center En liacutenea julio de 2005 httpblogslawharvardedutechrss

[Zipf 1949] Zipf G K Human Behavior and the Principle of Least Effort Addison-Wesley

1949

142

Anexo I Lenguajes de definicioacuten de documentos

En la tesis se hace referencia a la recuperacioacuten de informacioacuten en general y a la

recuperacioacuten de informacioacuten en la Web en particular Dado que la mayoriacutea de documentos

de la Web se encuentran estructurados en formato HTML y que el lenguaje XML seraacute

parte importante de la implementacioacuten del sistema propuesto dedicaremos este Anexo I a

introducir ambos lenguajes Tambieacuten se haraacute una introduccioacuten a dos subconjuntos de

XML el primero denominado RSS que se utiliza para sindicar noticias en la Web y el

segundo denominado Atom con un cometido muy parecido al RSS

Entre los lenguajes de estructuracioacuten de documentos maacutes utilizados destacan

tres SGML HTML y XML [De la Fuente 1998] Estos lenguajes insertan etiquetas en los

documentos para delimitar los elementos de estructura Por una parte diferenciaremos

entre SGML y XML que son metalenguajes y permitiraacuten crear lenguajes de definicioacuten de

distintos tipos de documentos y las instancias de eacutestos como HTML que es un lenguaje de

definicioacuten de un tipo de documento concreto es decir una instancia de SGML

SGML o Standard Generalized Markup Language se definioacute en los antildeos 80 por

iniciativa de las editoriales de los EEUU Pretendiacutea separar dos funciones principales del

mundo editorial que son los contenidos y la forma de presentar esos contenidos en este

caso los libros o publicaciones El autor de una publicacioacuten seriacutea el especialista en el

contenido y la editorial es la que definiraacute coacutemo ha de presentarse ese contenido SGML

permitiraacute definir lenguajes concretos de marcado es decir se trata de un metalenguaje un

lenguaje o notacioacuten para definir lenguajes SGML seraacute por tanto un lenguaje que no tiene

nada que ver con Internet ni con las redes [Saacutenchez 2002] Una buena introduccioacuten a este

lenguaje se tiene en [Sperberg 1996] y una referencia sobre su uso puede encontrarse en

[Herwijnen 1994]

AI1 Hypertext Markup Language

HTML acroacutenimo de ldquoHyperText Markup Languagerdquo es un lenguaje simple de marcado

que se utiliza para crear documentos de hipertexto para la Web de los cuales describe su

estructura y contenido

AI-1

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ldquoAunque no es un lenguaje de descripcioacuten de estructura de uso general su amplia

difusioacuten y el nuacutemero de documentos estructurados seguacuten sus normas es tan grande que su

consideracioacuten como lenguaje de definicioacuten de estructura se hace obligatoriardquo [Vegas 1999]

El lenguaje HTML no soacutelo permitiraacute establecer hiperenlaces entre diferentes

documentos sino que describiraacute las paacuteginas independientemente de la plataforma en que

sean utilizadas Es decir un documento HTML contendraacute toda la informacioacuten necesaria

sobre su estructura junto con la interaccioacuten con el usuario y seraacute el programa navegador

que se utilice el responsable de asegurar que el documento tenga un aspecto coherente

independientemente del tipo de maacutequina desde donde se acceda al documento De esta

manera todos los documentos compartiraacuten un mismo aspecto y una uacutenica interfaz lo que

facilita enormemente su manejo por cualquier persona

HTML es un lenguaje muy sencillo que permite preparar documentos Web

insertando en el texto de los mismos una serie de etiquetas o tags que controlan los

diferentes aspectos de la presentacioacuten y el comportamiento de sus elementos Las etiquetas

que controlan el comportamiento del documento son fragmentos de texto encerrados entre

aacutengulos como ltetiquetagt Existen diferentes tipos de etiquetas algunas controlan

simplemente la presentacioacuten del texto del documento otras la forma en que se incluiraacuten

imaacutegenes hiperenlaces con documentos o con diferentes partes del mismo documento

Como todo lenguaje HTML estaacute en constante evolucioacuten apareciendo versiones nuevas

con una cierta frecuencia La uacuteltima versioacuten a junio de 2005 es la 401 [HTML 1999]

AI12 Evolucioacuten del Lenguaje HTML

El lenguaje HTML fue creado en 1991 por Tim Berners-Lee del CERN con el uacutenico

objetivo de servir como medio de transmisioacuten de informacioacuten en forma de hipertexto entre

fiacutesicos En 1993 Dan Connelly escribe la primera especificacioacuten SGML describiendo el

lenguaje HTML En 1994 el sistema habiacutea tenido tal aceptacioacuten que la especificacioacuten se

habiacutea quedado ya obsoleta Es entonces cuando nace el HTML 20 en un borrador

realizado tambieacuten por Dan Connelly El crecimiento exponencial que comienza a sufrir el

sistema lleva a organizar la ldquoFirst International WWW Conferencerdquo en Mayo de 1994

Desde entonces el lenguaje ha seguido creciendo a medida que se difundiacutea su uso y se

descubriacutean nuevas necesidades De este modo a finales de 1993 se comienza a hablar de

HTML+ propuesto por Dave Raggett de HEP Labs Bristol que evoluciona a un nuevo

borrador en Marzo de 1994 para la versioacuten HTML 30 incorporando nuevas posibilidades

AI-2

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

como la realizacioacuten de tablas complejas control de proceso de formatos e incorporacioacuten de

expresiones matemaacuteticas

Actualmente la mayoriacutea de los documentos de la Web se almacenan y transmiten

en HTML lenguaje apropiado para elaborar de manera sencilla documentos con

posibilidades de hipertexto y multimedia mediante un conjunto de etiquetas Sin embargo

tal simplicidad tiene un coste que se refleja en una serie de limitaciones del HTML

No se permite que el usuario especifique su propias etiquetas o atributos para

parametrizar o cualificar semaacutenticamente sus datos

No soporta la especificacioacuten de estructuras complicadas para representar esquemas

de bases de datos o jerarquiacuteas orientadas al objeto

No se soporta ninguna clase de especificacioacuten de lenguaje que permita comprobar

la validez estructural de los datos en el momento de su importacioacuten

AI2 Extensible Markup Language

Para responder a los requisitos que precisaba el sistema de publicacioacuten comercial a traveacutes

de la Web y posibilitar su expansioacuten en nuevos dominios el ldquoWWW Consortiumrdquo o W3C

creoacute un grupo de trabajo en 1996 presidido por Jon Bosak de Sun Microsystems para

desarrollar el ldquoExtensible Markup Languagerdquo (XML) o lenguaje de marcado extensible para las

aplicaciones que requeriacutean una funcionalidad no cubierta por HTML Se trataba de

construir un conjunto de especificaciones que permitieran utilizar de una forma faacutecil y

directa las posibilidades que proporcionaba SGML El objetivo principal era disponer de

estructuras de datos autodescriptivas de complejidad y profundidad arbitraria para ser

utilizadas en las aplicaciones que lo requiriesen La uacuteltima definicioacuten de XML a junio de

2005 es la 11 [Bray 2004]

Asiacute XML es un subconjunto de SGML adaptado especiacuteficamente para su uso en la

Web manteniendo todas las ventajas de SGML pero maacutes faacutecil de aprender y de utilizar

Este subconjunto diferiraacute de HTML en tres aspectos fundamentales

1 Se pueden definir nuevas etiquetas y atributos

2 Las estructuras de los documentos pueden anidarse hasta cualquier nivel de

complejidad

AI-3

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

3 Cualquier documento XML puede contener una descripcioacuten opcional de su

gramaacutetica para ser utilizada por aquellas aplicaciones que precisen realizar una

validacioacuten estructural

El lenguaje XML no se desarrolloacute para crear paacuteginas Web sino para organizar el

contenido de un documento mediante etiquetas semaacutenticas Sus objetivos de disentildeo fueron

[Bray 2004]

Debiacutea ser directamente utilizable sobre Internet

Debiacutea ser compatible con una amplia variedad de aplicaciones

Debiacutea ser compatible con SGML

Debiacutea ser faacutecil la escritura de programas que procesaran documentos XML

Sus caracteriacutesticas opcionales debiacutean ser miacutenimas idealmente cero

Los documentos XML deberiacutean ser legibles y razonablemente claros

Un disentildeo de XML deberiacutea poderse preparar raacutepidamente

El disentildeo de XML debiacutea ser formal y conciso

Los documentos XML deben ser faacuteciles de crear

AI21 Estructura de XML

Un documento XML contendraacute exclusivamente informacioacuten en forma de texto nunca de

otro tipo En eacutel se encontraraacuten etiquetas o delimitadores con un aspecto parecido a los

empleados en HTML pero con la libertad de elegir la denominacioacuten que se desee

normalmente reflejando el tipo de contenido que delimitan

Un ejemplo de sencillo documento XML se muestra a continuacioacuten

ltpersonagt

ltnombre_completogt

ltnombregtJuanltnombregt

ltapellidosgtPeacuterez Fernaacutendezltapellidosgt

ltnombre_completogt

lttrabajogtfontanerolttrabajogt

ltpersonagt

AI-4

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

En el ejemplo se observa que existe un elemento raiacutez denominado persona y dos

elementos hijos del anterior denominados nombre_completo y trabajo En un

documento XML soacutelo puede existir un elemento raiacutez o ldquorootrdquo

Aunque no es estrictamente obligatorio los documentos XML deben tener una

declaracioacuten inicial en eacutesta apareceraacuten atributos como la versioacuten de XML version la

codificacioacuten del texto del documento encoding y la autonomiacutea del documento

standalone Si el valor de standalone fuese ldquonordquo entonces se requeriraacute una definicioacuten

externa para determinar los valores apropiados de ciertas partes del documento Una

declaracioacuten ejemplo es la siguiente

ltxml version=rdquo10rdquo encoding=rdquoISO-8859-1rdquo standalone=rdquoyesrdquogt

Los elementos XML pueden tener atributos Un atributo seraacute un par nombre-valor

adjunto a una etiqueta de inicio Los valores iraacuten encerrados entre comillas Por ejemplo

un elemento persona puede tener un atributo nacida con el valor rdquo23-06-1912rdquo

ltpersona nacida=rdquo23-06-1912rdquogt

Alan Turing

ltpersonagt

AI22 Documentos XML bien-formados

Cada documento XML sin excepcioacuten debe estar bien-formado Esto implica que debe

cumplir las reglas sintaacutecticas especificadas en el lenguaje Algunas de estas reglas son

Cada etiqueta o marca inicial ldquoltrdquo debe corresponderse con una etiqueta o marca

final ldquoltrdquo

Los elementos pueden estar anidados pero no superpuestos

Soacutelo puede existir un elemento raiacutez

Los valores de los atributos deben ir entrecomillados

Un elemento no puede tener dos atributos con el mismo nombre

Los comentarios y las instrucciones de proceso no pueden aparecer entre las

marcas

AI-5

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI23 Especificaciones XML

Ademaacutes de la propia definicioacuten del lenguaje [Bray 2004] podemos encontrar diversas

especificaciones para XML destacando las siguientes

DTD (ldquoDocument Type Definitionrdquo) definicioacuten del tipo de documento

Contendraacute una definicioacuten formal de un tipo de documento y a la vez una

especificacioacuten de la estructura loacutegica Define tanto los elementos de una paacutegina

como sus atributos Esta notacioacuten necesaria para definir un lenguaje de marcado

concreto fue estandarizada por el W3C en 19981 El DTD del XML es opcional

en tareas sencillas no seraacute necesario Cuando un documento XML ademaacutes de estar

bien formado se ajusta una estructura y una semaacutentica determinada por un DTD se

dice que el documento XML es vaacutelido

XML Schema Es una manera de definir tipos de documentos alternativa a DTD

resultando maacutes potente expresiva y completa que la anterior [Saacutenchez 2002] Fue

especificada en mayo de 2001 por el W3C La uacuteltima versioacuten de XML Schema estaacute

fechada a junio de 20052

XSL (ldquoeXtensible Stylesheet Languagerdquo) define o implementa el lenguaje de estilo

de los documentos escritos para XML Permite modificar el aspecto de un

documento Estaacute dividido en dos partes ldquoXSL Transformationsrdquo o XSLT3 y ldquoXSL

Formatting Objectsrdquo o XSL-FO4 XSLT es una aplicacioacuten XML que permitiraacute

definir transformaciones en forma de reglas para convertir un documento XML en

otro documento XML Por su parte XSL-FO es una aplicacioacuten XML para definir

el disentildeo preciso del texto en una paacutegina Tiene elementos que representan paacuteginas

bloques de texto en las paacuteginas graacuteficos y muchos otros

Xpath5 Es un lenguaje no XML utilizado para identificar o direccionar partes

particulares de un documento XML Como soporte para este objetivo principal

tambieacuten proporciona facilidades baacutesicas para manipulacioacuten de cadenas nuacutemeros y

booleanos XPath obtiene su denominacioacuten por el uso que hace de una notacioacuten de

1 W3C Recommendation httpwwww3orgXML199806xmlspecdtd 2 W3C Architecture Domain httpwwww3orgXML2005xsd-versioning-use-cases 3 W3C Recommendation 16 November 1999 httpwwww3orgTR1999REC-xslt-19991116 4 W3C Recommendation httpwwww3orgTRxslslice6htmlfo-section 5 W3C Recommendation httpwwww3orgTRxpath

AI-6

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

caminos como en las URLs para navegar a traveacutes de la estructura jeraacuterquica de un

documento XML

Xlink6 Es una sintaxis basada en atributos para antildeadir enlaces a los documentos

XML Los enlaces podraacuten ser simples como los habituales en HTML

bidireccionales enlazando dos documentos en ambas direcciones y

multidireccionales presentando varios caminos diferentes entre cierto nuacutemero de

documentos XML Los documentos que se enlazan tambieacuten pueden no ser XML

AI3 Rich Site Summary

ldquoRich Site Summaryrdquo o RSS es un formato basado en XML utilizado para compartir

faacutecilmente el contenido de la Web Ciertos contenidos estaacuten especialmente indicados para

utilizar este formato titulares de noticias mercadotecnia anuncios de trabajo y otros

muchos tales como los blogs7 o diarios personales en la Web

Un archivo RSS tambieacuten denominado un ldquofeedrdquo RSS o una fuente RSS consiste en

una lista de items cada uno de los cuales contiene un tiacutetulo una descripcioacuten y un enlace a

una paacutegina Web Normalmente el contenido completo estaacute disponible por separado y es

accesible mediante el enlace del fichero RSS

Existen diferentes versiones de RSS asiacute se hablaraacute de ldquoRich Site Summaryrdquo ldquoRDF

Site Summaryrdquo o de ldquoReally Simple Syndicationrdquo dependiendo de la versioacuten con la que

estemos tratando Una definicioacuten de ldquoSyndicationrdquo es ldquodistribuir una noticia a traveacutes de una

coalicioacuten de empresas o sindicato para su publicacioacuten en cierto nuacutemero de perioacutedicos

simultaacuteneamenterdquo [Moffat 2003]

AI31 Historia y Origen de RSS

Netscape introdujo en 1999 el formato RSS 0908 para ofrecer un canal de contenidos en

su portal ldquomynetscapecomrdquo El objetivo era crear una plataforma y un vocabulario basado

6 W3C Recommendation httpwwww3orgTRxlink 7 ldquoNo estaacute en el diccionario de la RAE pero el teacutermino blog corre de boca en boca incluso ha sido palabra del antildeo 2004 Baacutesicamente un blog weblog o bitaacutecora es una direccioacuten de Internet en la que el autor escribe en forma de diario sobre temas que le llaman la atencioacuten con enlaces a otras paacuteginas webs que considera interesantesrdquo Fuente httpwww20minutosesnoticia1810blogsweblogs 8 My Netscape Network httpwwwpurplepagesieRSSnetscaperss090html

AI-7

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

en RDF9 para poder sindicar los datos en el portal de Netscape y en su navegador

ofreciendo una forma muy simple de publicar contenidos y permitiendo a los

desarrolladores web obtener visitas gracias a los contenidos ofrecidos en ldquoMy Netscaperdquo

Posteriormente Netscape disentildeoacute RSS 09110 con la intencioacuten de estandarizar la versioacuten

anterior Sin embargo Netscape decidioacute no continuar el proyecto RSS lo que provocoacute la

aparicioacuten de diferentes formatos RSS Baacutesicamente se pueden dividir en dos grupos

RSS 1011 esta especificacioacuten que se basa por completo en RDF se publicoacute como

propuesta en diciembre de 2000 Se elaboroacute a iniciativa privada en el grupo liderado

por Rael Dornfest de OrsquoReilly Se concibe para aprovechar las posibilidades de

extensioacuten que ofrece sin tener que actualizar las versiones de la especificacioacuten

constantemente Generalmente los ficheros se guardan con extensioacuten RDF

RSS 09212 2013 Desarrolladas por Dave Winner estas especificaciones estaacuten

basadas en XML El autor modificoacute el significado de RSS y le otorgoacute el significado

de ldquoReally Simple Syndicationrdquo o sindicacioacuten realmente simple que da una idea de

su objetivo proporcionar una herramienta para publicar contenidos de una forma

raacutepida y sencilla en la Web

AI32 RSS 092

Fue publicada en Diciembre del 2000 por Dave Winner Esta especificacioacuten es totalmente

compatible con RSS 091 ya que los nuevos elementos incorporados por esta versioacuten son

opcionales Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 092 vaacutelido

Elementos obligatorios

En la parte superior del archivo debe existir la etiqueta ltrssgt y la versioacuten que cumple el

documento XML Subordinado a la etiqueta ltrssgt se encuentra el elemento ltchannelgt o

canal Todo canal debe contener al menos los tres primeros elementos que se enumeran a

continuacioacuten 9 RDF (Resource Description Framework) es un lenguaje de marcado creado en 1997 por Ramnathan V Guha La especificacioacuten del lenguaje puede encontrase en httpwwww3orgRDF 10 Netscape Communications httpmynetscapecompublishformatsrss-spec-091html 11 RDF Site Summary (RSS) 10 httpwwwrddlorgrss10htm 12 UserLand RSS 092 httpbackenduserlandcomrss092 13 RSS at Harvard Law RSS 20 Specification httpblogslawharvardedutechrss

AI-8

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

lttitlegt -- El nombre del canal seraacute como los usuarios identifican el servicio

ltlinkgt -- Direccioacuten Web que apunta al lugar identificado en lttitlegt

ltdescriptiongt -- La frase que describe el canal

Elementos opcionales

ltimagegt -- Es un elemento XML que contiene varios sub-elementos tres de ellos

son opcionales y otros tres son requeridos

lturlgt -- Direccioacuten Web de un archivo de imagen que representa al canal

lttitlegt -- Describe la imagen

ltlinkgt -- Es la direccioacuten Web donde se encuentra el canal En la praacutectica los

elementos lttitlegt y ltlinkgt de la imagen deberiacutean ser los mismos que los del

canal

Los elementos opcionales de ltimagegt incluyen ltwidthgt y ltheightgt que son

nuacutemeros que indican el ancho y alto de la imagen en pixels ltdescriptiongt

contendraacute un texto relacionado con el renderizado de la imagen en HTML

ltlanguagegt -- Indica el idioma en que estaacute escrito el canal Esto permite a los

agregadores de noticias agrupar los sitios con el mismo idioma por ejemplo en una

uacutenica paacutegina Para el idioma espantildeol seraacute ldquoesrdquo

ltcopyrightgt -- Aviso de derechos de autoriacutea para el contenido del canal

ltmanagingEditorgt -- La direccioacuten de correo del editor del canal la persona de

contacto para cuestiones de edicioacuten

ltwebMastergt -- La direccioacuten de correo del desarrollador del canal la persona de

contacto si existen problemas teacutecnicos

ltratinggt -- ldquoPICS14 Ratingrdquo del canal Es un control de contenido del canal

ltpubDategt -- La fecha de publicacioacuten del contenido del canal Todas las fechas en

RSS estaraacuten conformes a la especificacioacuten RFC 82215

14 PICS ldquoPlatform for Internet Content Selectionrdquo ldquoW3C Specificationrdquo httpwwww3orgPICSSpecs

AI-9

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

ltlastBuiltDategt -- La uacuteltima fecha en que se modificoacute el contenido del canal

ltdocsgt -- Es una direccioacuten Web que apunta a la documentacioacuten para el formato

utilizado en el fichero RSS

lttextInputgt -- Es un elemento XML que sirve para que un usuario proporcione

realimentacioacuten en forma de texto Contiene varios sub-elementos que son

requeridos

lttitlegt -- Es la etiqueta del botoacuten a presionar para enviar el texto

ltdescriptiongt -- Describe el area de texto donde se escribe

ltnamegt -- Nombre del objeto de texto

ltlinkgt -- Direccioacuten Web del script CGI16 que procesa la entrada de texto

ltskipDaysgt -- Es un elemento XML que puede contener hasta siete sub-elementos

del diacutea que pueden ser Monday Tuesday Wednesday Thursday Friday Saturday o

Sunday Los lectores de noticias no leeraacuten el canal durante los diacuteas especificados en

este elemento

ltskipHoursgt -- Es un elemento XML que puede contener hasta 24 sub-elementos

de hora que representan la hora en formato GMT17 Los lectores de noticias no

leeraacuten el canal durante las horas especificadas en este elemento

15 Standard for the format of ARPA Internet text messages httpasgwebcmuedurfcrfc822html 16 CGI Common Gateway Interface es un protocolo para la transmisioacuten de informacioacuten hacia cierto compilador instalado en un servidor Web 17 GMT ldquoGreenwich Meridional Timerdquo es la hora con referencia al meridiano de Greenwich

AI-10

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

iquestQueacute es un iacutetem

Este es uno de los elementos maacutes importantes ya que todos los ficheros RSS deben

contener al menos un ltitemgt Un canal puede contener varios elementos ltitemgt cada uno

de ellos apuntaraacute a una noticia diferente con una descripcioacuten opcional El ltitemgt estaraacute

compuesto por los siguientes elementos opcionales

lttitlegt Es el tiacutetulo de la noticia

ltlinkgt Direccioacuten Web que apunta a la noticia

ltdescriptiongt Es el resumen de la noticia

Nuevos elementos respecto a la versioacuten RSS 091

ltsourcegt -- Es un nuevo sub-elemento opcional del ltitemgt Es el nombre del canal

RSS de donde proviene el item se deriva del tiacutetulo

ltenclosuregt -- Es un nuevo sub-elemento opcional del ltitemgt Describe un objeto

adjunto al item Posee tres atributos requeridos Asiacute url indicaraacute donde se encuentra

ltenclosuregt length indicaraacute cuanto ocupa en bytes y type indicaraacute el tipo que es seguacuten

el estaacutendar MIME18

ltcategorygt -- Es un nuevo sub-elemento opcional del ltitemgt Posee un atributo

opcional domain que identificaraacute la categoriacutea en una taxonomiacutea

ltcloudgt -- Es un nuevo sub-elemento opcional del ltchannelgt Especificaraacute un

servicio Web Su propoacutesito es permitir la notificacioacuten de actualizaciones en el canal

18 MIME ldquoMultipurpose Internet Mail Extensionsrdquo define la estructura de un mensaje de e-mail Esto se consigue mediante campos en formato ASCII que identifican el contenido de diversas partes del mensaje

AI-11

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 092

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 092 que consta de un

canal y un elemento item

ltxml version=rdquo10rdquo encoding=rdquoiso-8859-1rdquo gt

ltrss version=092gt

ltchannelgt

lttitlegtELPAISeslttitlegt

ltlinkgthttpwwwelpaisesltlinkgt

ltdescriptiongtRSS de ELPAISesltdescriptiongt

ltlanguagegtes-esltlanguagegt

ltitemgt

lttitlegtEspantildea consigue sus primeros oros en los Juegos del

Mediterraacuteneolttitlegt

ltlinkgthttpwwwelpaisesarticulohtmlxref=2005062ltlinkgt

ltdescriptiongtLa delegacioacuten espantildeola vivioacute el saacutebado una

exitosa jornada de competicioacuten donde sumoacute un total de 23

medallasltdescriptiongt

ltitemgt

ltchannelgt

ltrssgt

En este ejemplo puede observarse la declaracioacuten de documento XML la indicacioacuten

de la versioacuten de RSS y varios elementos del canal como el tiacutetulo el enlace la descripcioacuten y

el lenguaje del documento Ademaacutes se dispone de un item con su tiacutetulo enlace y

descripcioacuten correspondientes

AI-12

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI33 RSS 20

Esta especificacioacuten fue publicada en Octubre de 2002 por Dave Winner Es compatible

con RSS 091 y RSS 092 Por tanto un fichero RSS 091 es tambieacuten un fichero RSS 20

vaacutelido

Nuevos elementos respecto a la versioacuten anterior

Se permiten crear tantos elementos como sean necesarios siempre y cuando se hayan

definido correctamente El elemento ltcategorygt pasa a ser opcional en ltchannelgt Se han

incorporado los siguientes

ltcommentsgt -- Es un nuevo sub-elemento opcional del ltitemgt Contendraacute la

direccioacuten Web donde se encuentran los comentarios acerca del item

ltgeneratorgt -- Es un nuevo sub-elemento opcional del ltchannelgt Indicaraacute el

programa que ha generado el archivo RSS

ltauthorgt -- Es un nuevo sub-elemento opcional del ltitemgt Especificaraacute la

direccioacuten de correo del autor del item Para un perioacutedico o revista el autor es la

persona que ha escrito el artiacuteculo

ltttlgt -- Es un nuevo sub-elemento opcional del ltchannelgt Define el tiempo de

vida del canal Se expresa en minutos e indica cuaacutento tiempo puede guardarse el

canal en memoria antes de ser refrescado

ltpubDategt -- Es un nuevo sub-elemento opcional del ltitemgt Es una fecha que

indica cuaacutendo fue publicado el item

ltguidgt -- Es un nuevo sub-elemento opcional del ltitemgt Es un identificador

uniacutevoco del item Si estaacute presente un agregador puede utilizarlo para decidir si el

item es nuevo o no

AI-13

ANEXO I - LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

Un ejemplo de fichero RSS 20

Se muestra a continuacioacuten un ejemplo simplificado de fichero RSS 20 que consta de un

canal y dos elementos item

ltxml version=10 encoding=utf-8 gt

ltrss version=20gt

ltchannelgt

lttitlegtEl Blog Salmoacutenlttitlegt

ltlinkgthttpwwwelblogsalmoncomltlinkgt

ltdescriptiongtEl Blog Salmoacutenltdescriptiongt

ltcopyrightgtCopyright 2005ltcopyrightgt

ltlastBuildDategtSun 26 Jun 2005 013604 +0100ltlastBuildDategt

ltgeneratorgthttpwwwmovabletypeorgv=316ltgeneratorgt

ltdocsgthttpblogslawharvardedutechrssltdocsgt

ltitemgt

lttitlegtBolivia sus recursos y las empresas extranjeraslttitlegt

ltdescriptiongtLa situacioacuten en Bolivia como se ha podido comprobar en las uacuteltimas semanas por la informacioacuten emitida en la televisioacuten es complicadaltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050626-boliviaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtSun 26 Jun 2005 013604 +0100ltpubDategt

ltitemgt

ltitemgt

lttitlegtVuelven las nacionalizacioneslttitlegt

ltdescriptiongtEl gobierno franceacutes continuacutea con la privatizacioacuten a la francesa que es su proceso de vender partes de sus empresas estatales a inversores privados mientras mantienen control sobre el nombramiento de los altos ejecutivos y sobre la estrategia a seguirltdescriptiongt

ltlinkgthttpwwwelblogsalmoncom20050624-nacionaphpltlinkgt

ltcategorygtEntornoltcategorygt

ltpubDategtFri 24 Jun 2005 123357 +0100ltpubDategt

ltitemgt

ltchannelgt

ltrssgt

Observamos la aparicioacuten de nuevos elementos respecto a la versioacuten 092 de RSS

tales como ltgeneratorgt y ltpubDategt

AI-14

ANEXO I ndash LENGUAJES DE DEFINICIOacuteN DE DOCUMENTOS

AI4 Atom

Atom tambieacuten es un sublenguaje XML No se corresponde ni se basa en ninguna versioacuten

de RSS pero tiene un formato muy similar a eacuteste y tiene el mismo objetivo permitir la

distribucioacuten de contenidos y noticias de sitios web

Se creoacute para resolver la confusioacuten creada por la existencia de diversos estaacutendares

similares para sindicacioacuten (RSS y RDF) Sin embargo maacutes que resolver el problema de

muacuteltiples estaacutendares ha creado uno nuevo que convive con los anteriores Estaacute auacuten en

proceso de desarrollo y ha recibido diferentes nombres denominaacutendose finalmente Atom

La uacuteltima versioacuten del estaacutendar es Atom 1019 publicada en julio de 2005

Las mejoras que supone Atom respecto a RSS han hecho que su uso se extienda

raacutepidamente a pesar de ser algo maacutes complicado Un documento Atom puede contener

maacutes informacioacuten y maacutes compleja Tambieacuten es maacutes consistente que un documento RSS

Un ejemplo de Atom 10

Se muestra a continuacioacuten un ejemplo simplificado de fichero Atom 10 que consta de una

sola entrada En Atom el elemento entrada o ltentrygt es equivalente al elemento ltitemgt de

RSS Ademaacutes cada entrada tendraacute un tiacutetulo o lttitlegt

ltxml version=10 encoding=utf-8gt

ltfeed xmlns=httpwwww3org2005Atomgt

lttitlegtEjemplo de entradalttitlegt

ltlink href=httpexampleorggt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltauthorgt

ltnamegtJuan Jltnamegt

ltauthorgt

ltidgturnuuid60a76c80-d399-11d9-b93C-0003939e0af6ltidgt

ltentrygt

lttitlegtLos robots potenciados con Atom corren furiosamentelttitlegt

ltlink href=httpexampleorg20031213atom03gt

ltidgturnuuid1225c695-cfb8-4ebb-aaaa-80da344efa6altidgt

ltupdatedgt2003-12-13T183002Zltupdatedgt

ltsummarygtTexto del resumenltsummarygt

ltentrygt

ltfeedgt

19 httpwwwatompuborg20050817draft-ietf-atompub-format-11html

AI-15

Anexo II Un Agregador Inteligente

Con el fin de situarnos en el contexto en que se llevaron a cabo los experimentos

disentildeados se comentaraacuten las caracteriacutesticas y principales funciones del programa

desarrollado para implementar y probar el sistema NectaRSS y que denominaremos con el

mismo nombre por simplicidad

La interfaz de usuario de NectaRSS dispone de un menuacute con todas las funciones

que puede realizar el usuario y de una barra de botones con las acciones maacutes importantes o

usuales El aacuterea de trabajo puede mostrar cualquier paacutegina web a la que se desee navegar y

seraacute ahiacute donde se muestren los titulares de noticias ordenados puesto que dicho resumen

es en siacute mismo una paacutegina en HTML confeccionada por el sistema Por uacuteltimo como

cualquier navegador estaacutendar se dispone de una barra de estado donde se informa al

usuario del estado de carga de las paacuteginas entre otras informaciones En la figura AII1 se

muestra el aspecto usual del programa

Figura AII1 Aspecto principal del programa NectaRSS

AII-1

UN AGREGADOR INTELIGENTE

Seraacute necesario gestionar de alguacuten modo las fuentes de informacioacuten a las que desea

acceder el usuario asiacute como los titulares de cada una de esas fuentes Para ello se disentildeoacute

otra pantalla donde se muestran las distintas fuentes de informacioacuten a las que se haya

subscrito el usuario y los titulares de la fuente de informacioacuten o ldquofeedrdquo que se encuentre

seleccionado Se podraacute navegar por los titulares como en cualquier agregador de contenidos

tiacutepico El aspecto de la pantalla ldquoFeedsrdquo se muestra en la figura AII2

Figura AII2 Gestioacuten de ldquofeedsrdquo en el programa NectaRSS

Para efectuar los experimentos se dotoacute al programa de un modo de trabajo

especial el modo experimento en el que los titulares de noticias no se muestran ordenados ni

destacados sino en un orden aleatorio y sin distincioacuten alguna de su importancia Asiacute se ha

considerado para no condicionar en modo alguno las decisiones del usuario experimental a

la hora de elegir un titular u otro En este caso el programa ofreceraacute el aspecto de la figura

AII3

AII-2

UN AGREGADOR INTELIGENTE

Figura AII3 Aspecto del programa NectaRSS en modo experimento

Adicionalmente el programa genera una paacutegina web con las recomendaciones de

titulares de cada sesioacuten Esta paacutegina se enviacutea a un dominio creado expresamente este fin

httpwwwneoyetcom Se accede a ella pulsando el enlace denominado ldquoTitulares del

diacuteardquo Se controloacute el nuacutemero de visitas diarias para tener una idea relativa del intereacutes de los

visitantes ante la recomendacioacuten de noticias ofrecida Si bien tal resumen se encontraraacute

personalizado para un usuario concreto puede resultar interesante a personas que

compartan intereses El aspecto de esta paacutegina web es tambieacuten muy sencillo y se refleja en

la figura AII4

AII-3

UN AGREGADOR INTELIGENTE

Figura AI4 Aspecto de la paacutegina web para acceder a la recomendacioacuten de noticias elaborada por el

programa NectaRSS

A traveacutes de esta paacutegina web se solicitaron usuarios voluntarios para colaborar en la

evaluacioacuten experimental del sistema A eacutestos se les ofrecioacute una versioacuten experimental del

programa NectaRSS junto con instrucciones detalladas Despueacutes de la realizacioacuten de los

experimentos cada usuario seleccionado devolvioacute la base de datos con los distintos

resultados Se comproboacute la validez de los experimentos realizados y se utilizaron los valores

numeacutericos obtenidos para evaluar la eficacia del sistema En ninguacuten caso se obtuvo

informacioacuten personal de ninguacuten usuario respetando estrictamente su privacidad

AII-4

UN AGREGADOR INTELIGENTE

AII2 Fuentes de informacioacuten o ldquofeedsrdquo utilizadas con el sistema

Se realizoacute la siguiente preseleccioacuten de fuentes de informacioacuten de la Web

Diario El Mundo (httpabraldesnetfeedselmundoxml)

Noticias de Bitaacutecoras (httpbitacorascomnoticiasindexxml)

Barrapunto (httpbackendsbarrapuntocombarrapuntorss)

Diario Marca (httpabraldesnetfeedsmarcaxml)

Kriptoacutepolis (httpwwwkriptopolisorgrss)

eCuaderno (httpwwwecuadernocomindexxml)

xataka (httpxatakacomesindexxml)

alzadoorg (httpwwwalzadoorgxmlalzadoxml)

Aventuras de un webmaster (httpwwwmaestrosdelwebcomblogindexrdf)

tintachina (httpwwwtintachinacomindexxml)

Sonia Blanco (httpwwwfilmicacomsonia_blancoindexxml)

Enciclopedia Britanica (httpwwwbritannicacomebdailycontentrss)

TIME Magazine (httprsstimecomwebtimersstopindexxml)

CNET reviews (httpreviewscnetcom4924-5_7-0xml)

Artnovela (httpwwwartnovelacomarbackendphp)

Blogdecine (httpwwwblogdecinecomindexxml)

Stardustcf (httpwwwstardustcfcomrdfasp)

Una furtiva mirada (httpfurtivosbloxuscomrdfxml)

Pedro Jorge (httpwwwpjorgecomrss)

Atalaya (httpatalayablogaliacomrdfxml)

Malos Pensamientos (httpmpblogaliacomrdfxml)

Libryscom (httpwwwlibryscomfeedrss)

El Blog Salmoacuten (httpwwwelblogsalmoncomindexxml)

AII-5

Page 7: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 8: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 9: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 10: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 11: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 12: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 13: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 14: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 15: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 16: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 17: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 18: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 19: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 20: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 21: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 22: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 23: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 24: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 25: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 26: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 27: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 28: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 29: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 30: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 31: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 32: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 33: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 34: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 35: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 36: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 37: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 38: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 39: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 40: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 41: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 42: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 43: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 44: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 45: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 46: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 47: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 48: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 49: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 50: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 51: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 52: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 53: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 54: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 55: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 56: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 57: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 58: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 59: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 60: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 61: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 62: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 63: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 64: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 65: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 66: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 67: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 68: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 69: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 70: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 71: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 72: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 73: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 74: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 75: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 76: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 77: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 78: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 79: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 80: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 81: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 82: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 83: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 84: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 85: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 86: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 87: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 88: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 89: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 90: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 91: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 92: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 93: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 94: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 95: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 96: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 97: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 98: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 99: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 100: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 101: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 102: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 103: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 104: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 105: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 106: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 107: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 108: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 109: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 110: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 111: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 112: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 113: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 114: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 115: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 116: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 117: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 118: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 119: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 120: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 121: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 122: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 123: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 124: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 125: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 126: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 127: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 128: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 129: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 130: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 131: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 132: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 133: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 134: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 135: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 136: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 137: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 138: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 139: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 140: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 141: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 142: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 143: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 144: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 145: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 146: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 147: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 148: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 149: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 150: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 151: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 152: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 153: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 154: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 155: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 156: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 157: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 158: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 159: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 160: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 161: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 162: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 163: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 164: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 165: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 166: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 167: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 168: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 169: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 170: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 171: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 172: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 173: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 174: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 175: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 176: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 177: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 178: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 179: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 180: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 181: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 182: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo
Page 183: UNIVERSIDAD DE GRANADAhera.ugr.es/tesisugr/15764552.pdf · Figura 6.2. Representación gráfica del factor de olvido, según la fórmula (5.9), para distintos valores del intervalo