web content mining - datos estructurados
TRANSCRIPT
WEB MININGExtracción de Datos EstructuradosWeb Content MiningJuan Azcurra
2
Introducción Una gran cantidad de información en la Web está contenida en
objetos de datos de estructuras regulares. Muchas veces los registros de datos son recuperados de bases de
datos. Tales registros de datos en la Web son importantes: listas de
productos y servicios. Aplicaciones: Recopilar datos para proporcionar servicios de valor
agregado. Shopping comparativo, búsqueda de objetos (más que búsquedas de
páginas, etc.) Dos tipos de páginas con datos estructurados: Páginas de listas y páginas de detalle.
Enfoques: Wrapper inducido (aprendizaje supervisado) Extracción automática (aprendizaje no supervisado)
3
Tipos de datos Páginas de listas
Cada página contiene una o más listas de registros de datos.
Cada lista se encuentra en una región de la página.
Dos tipos de registros: plano y anidado. Páginas de detalle
Cada página se enfoca en un objetivo individual.
Puede contener información relacionada o no.
4
Página de Listas
2 listas de productos
6
Página de detalle – descripción del producto
7
Resultados de la extracción
anidadas
8
Modelo de datos y soluciones Modelo de datos Web: Relaciones anidadas
Solución al problema Dos técnicas importantes
Wrapper inductivo – supervisado Extracción automática – no supervisada
Información que puede ser explotada Archivos fuentes (páginas Web en HTML)
Representadas como strings o árboles Información visual
9
Información visual y árbol
10
Wrapper por inducción Utilizando máquinas de aprendizaje para generar las reglas de
extracción El usuario marca los item objetivos en algunas páginas de
entrenamiento. El sistema entrena las reglas de extracción con estas páginas. Las reglas son aplicadas a items a extraer en otras páginas.
Ejemplos de entrenamientoE1: 513 Pico, <b>Venice</b>, Phone 1-<b>800</b>-555-1515E2: 90 Colfax, <b>Palms</b>, Phone (800) 508-1570E3: 523 1st St., <b>LA</b>, Phone 1-<b>800</b>-578-2293E4: 403 La Tijera, <b>Watts</b>, Phone: (310) 798-0008
Reglas de extracciónStart rules: End rules:R1: SkipTo(() SkipTo())R2: SkipTo(-<b>) SkipTo(</b>)
11
Extracción automática Existen 2 formulaciones principales:
Problema 1: Extracción basada en páginas de listas simples
Problema 2: Extracción basada en páginas de múltiple entrada del mismo tipo (páginas de lista o página de detalles)
12
Extracción automática: Problema 1
13
Técnicas de solución Identificar regiones de datos y registros
de datos Buscando patrones repetitivos
String matching (tratar a la fuente HTML como string).
Tree matching (tratar a la fuente HTML como árbol).
Alineación de items de datos: Múltiple alineación
14
Integración de información Los datos extractados desde diferentes sites
necesitan ser integrados para producir bases de datos consistentes.
Integración significa: Schema match: encontrar columnas en
diferentes tablas que contengan el mismo tipo de información (ej. Nombres de productos)
Data instance match: encontrar valores que son semanticamente identificos pero se representan de forma diferente en distintos sitios (ej., “Coke” y “Coca Cola”).
15
Web Query Interface Integration
16
Descubrir atributos sinónimos En el dominio de libros (autor – escritor,
tema – categoría)
17
Schema Matching como descubrimiento de correlaciones
Esta técnica necesita un gran número de consultas de entrada.
Atributos sinónimos están corelacionados negativamente. Son alternativos, raramente co-ocurren
ej. autor = escritor Grupos de atributos con correlación positiva.
Frecuentemente co-ocurren en las consultas. ej, {Apellido, Nombre}
18
Efecto puente
Es asdfasd Asdfasd Asdf Asdf
Observaciones:• Es dificultoso unir el campo “Select Your Vehicle” de A con el campo “Make” de B.• Pero las instancias de A son similares a las de C, y la etiqueta de C es similar a la de B.• Entonces, C puede ser como puente para conectar A y B.
19
Modelo de datos Gran parte de los datos de la Web pueden ser
modelados como relaciones anidadas. objetos con tipos permiten conjuntos anidados y
tuplas. Una instancia de un tipo T es simplemente
un elemento de dom(T).
20
Un ejemplo de tipo de tupla anidada
Relaciones clásicas planes son tipos no anidados. Relaciones anidadas son tipos de conjuntos arbitrarios.