clasificación automática de documentos

10
Clasificación Automática utilizando Clustering (Kmeans, EM) de la Colección 20 NewsGroup Santiago Fernando Suárez S. Inteligencia Artificial Avanzada Escuela de Ciencias de la Computación UNIVERSIDAD TECNICA PARTICULAR DE LOJA [email protected] RESUMEN General Terms: Algorithms, Categorization Text Palabras claves Clasificador, modelo vectorial, clustering, Minería de texto. Abstract En este trabajo se presenta un estudio comparativo de categorización de documentos entre los algoritmos de clustering K-means, EM sobre un conjunto de datos pertenecientes al repositorio 20 News Group, además se presenta una recopilación de trabajos que abordan el mismo problema, se exponen las técnicas empleadas y algunos resultados obtenidos. Asimismo se habla de las ventajas y desventajas de los métodos de clasificación supervisado, semi- supervisado y no supervisado. Se aborda también sobre los modelo de representación de los documentos, se presenta una descripción sobre el modelo vectorial utilizado en la Recuperación de Información ahora aplicado a la categorización de documentos. 1. Introducción Este proyecto está enfocado al análisis y experimentación del aprendizaje automático teniendo como herramienta la clasificación. Esta actividad aunque parece trivial para el ser humano para un computador no lo es tanto, ya que todos los escenarios y las posibles combinaciones entre las variables no son siempre los mismos, para solucionar este y otros problemas aparecen las técnicas clasificación supervisada; que a partir de un conjunto de entrenamiento previamente preparado por un agente humano se procede a sacar el conocimiento necesario para la clasificación de nuevos casos. 1.1. Planteamiento del Problema La cantidad de documentos presentes en la red es cada vez mayor, la información se encuentran contenido en repositorios tanto públicos como privados. La diversidad de contenidos a si como su diversidad hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano. Esto hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano. 1.2. Objetivos El presente proyecto tiene como objetivo conocer los modelos de agrupación más efectivos para la clasificación de. Además 1

Upload: nando85

Post on 21-Jun-2015

3.089 views

Category:

Education


1 download

DESCRIPTION

Proyecto final de IAA

TRANSCRIPT

Page 1: Clasificación Automática de Documentos

Clasificación Automática utilizando Clustering (Kmeans, EM) de la Colección 20 NewsGroup

Santiago Fernando Suárez S.

Inteligencia Artificial AvanzadaEscuela de Ciencias de la

ComputaciónUNIVERSIDAD TECNICA PARTICULAR DE [email protected]

RESUMEN

General Terms: Algorithms, Categorization Text

Palabras clavesClasificador, modelo vectorial, clustering, Minería de texto.

Abstract

En este trabajo se presenta un estudio comparativo de categorización de documentos entre los algoritmos de clustering K-means, EM sobre un conjunto de datos pertenecientes al repositorio 20 News Group, además se presenta una recopilación de trabajos que abordan el mismo problema, se exponen las técnicas empleadas y algunos resultados obtenidos. Asimismo se habla de las ventajas y desventajas de los métodos de clasificación supervisado, semi-supervisado y no supervisado. Se aborda también sobre los modelo de representación de los documentos, se presenta una descripción sobre el modelo vectorial utilizado en la Recuperación de Información ahora aplicado a la categorización de documentos.

1. Introducción

Este proyecto está enfocado al análisis y experimentación del aprendizaje automático teniendo como herramienta la clasificación. Esta actividad aunque parece trivial para el ser humano para un computador no lo es tanto, ya que todos los escenarios y las posibles combinaciones entre las variables no son siempre los mismos, para solucionar este y otros problemas aparecen las técnicas clasificación supervisada; que a partir de un conjunto de entrenamiento previamente preparado por un agente humano se procede a sacar el conocimiento necesario para la clasificación de nuevos casos.

1.1. Planteamiento del Problema

La cantidad de documentos presentes en la red es cada vez mayor, la información se encuentran contenido en repositorios tanto públicos como privados. La diversidad de contenidos a si como su diversidad hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.Esto hace necesario el uso de herramientas que permitan organizar los documentos de acuerdo a cada interés particular con el menor esfuerzo posible por parte del ser humano.

1.2. ObjetivosEl presente proyecto tiene como objetivo conocer los modelos de agrupación más efectivos para la clasificación de. Además se contemplan que dicho clasificador cuente con las siguientes características:

Cuente con un modelo flexible de representación de documentos

Independiente del dominio.- Que no está restringido a un solo campo si no que sea de propósito general.

Que trabaje de igual forma con contenido estructurado como no estructurado.

1.3. Trabajos Realizados

Existen gran variedad de trabajos relacionados con este tema, entre esos podemos mencionar el trabajo de Guzmán (2009) el cual utiliza una categorización semiautomática de documentos, específicamente el algoritmo selft-training; este funciona con un número pequeño de instancias categorizadas previamente mano y luego utiliza la web como un corpus referencial, para obtener nuevos casos de entrenamiento y así aumentar la diferencia entre los patrones de cada clase, así como también la eficacia del clasificador. Siguiendo la misma línea de clasificación semi-automática se encuentra Aparicio (2008) en donde se utilizan la variante multimonial del clasificador Naive Bayes para generar un modelo de mezclas de términos en base a la longitud del documento y así calcular la probabilidad. También se utiliza el algoritmo EM (Expectation-Maximization) como primer paso se estima el valor esperado de la clase dada para encontrar los máximos locales de los parámetros del modelo estimado, luego se maximiza la probabilidad de los parámetros utilizando los valores del paso anterior. En Figuerola (2000) se hace uso del modelo vectorial de los sistemas de Recuperación de Información (RI) para generar vectores patrón para el entrenamiento, estos son de tipo binario los cuales reflejan la ocurrencia de términos en los documentos, a cada término se le asigna un peso calculado a partir de la propuesta de Salton (1968), el proceso de reconocimiento de patrones de cada clase se hace utilizando el algoritmo de Rochio.

1

Page 2: Clasificación Automática de Documentos

En Cruz (2006) se hace una clasificación de críticas de cine, lo particular de este trabajo es que utiliza bigramas 1 los cuales sirven de entrada al algoritmo PMI-IR (Pointwise Mutual Information-Information Retrieval) para el cálculo de la orientación semántica (positivas o negativas) de las críticas, la clasificación en si es la suma de las orientaciones semánticas. Martín (2009) también enfoca su trabajo en la clasificación de críticas de cine, en este trabajo los documentos a clasificar pasan por una actividades previa basado en actividades de Procesamiento de Lenguaje Natural (segmentación, lematización, desambiguación semántica) la clasificación se la realiza utilizando los algoritmos KNN y K Nearest Neightbour. En Rangel (2004) se hace una clasificación de páginas Web para un dominio específico (Teatro) utiliza el método Bow y la validación cruzada para verificar la adecuación de la colección de entrenamiento, la clasificación se realiza usando el algoritmo de Naive Bayes, obteniendo muy bueno resultados. Zubiaga (2009) también trabaja con la clasificación de páginas web, para ello utiliza el algoritmo SVM (Support Vector Machine) ya que estos no requieren una selección o reducción de términos, tampoco un ajuste de parámetros lo que facilita su directo uso sobre los documentos a clasificar. Yoliz (2003) utiliza los algoritmos genéticos, en este trabajo los documentos son representados mediante la numeración de grupo la cual contiene varios parámetros (Cantidad de documentos, cantidad de grupos, similitud) para el cruzamiento de cromosomas utilizan una solución creada en base a los requerimientos del problema, los resultados de este trabajo son mejores que los obtenidos con el algoritmo “Bisecting K-Means con refinamiento”. En Lilac (2009) se propone a la clasificación automática de los documentos utilizando el algoritmo A- Priori, se pone especial interés en el análisis de las relaciones entre el conjunto de documentos de una clase y los términos que contienen, produciendo un conjunto de reglas basado en los términos y sus frecuencias en cada categoría. Fawad (2009) utiliza el método de clasificación x-Sim clustering, la idea principal de este algoritmo es aprender de la matriz de similitud de los documentos y la matriz de similitud entre las palabras los patrones en cada iteración, los experimentos mostraron que este enfoque aporta iguales o mejores resultados que utilizando el método de SVM.

Como se ha revisado existen formas supervisadas y no supervisadas para resolver el problema de clasificación de documentos, también se presenta un interés en técnicas semi-supervisadas ya que estas dedican el menor esfuerzo en la creación del conjunto de entrenamiento. Asimismo la naturaleza de la clasificación ha evolucionado, en un principio solo se basaba en la similitud sintáctica de palabras pero actualmente se están considerando y utilizando sistemas de clasificación que comprendan el sentido de los términos de los documentos (similitud semántica).

2. Metodología

2.1. Elección del Clasificador

De los trabajos revisados podemos destacar que existen varias formas de solucionar este problema, entre estás se destacan las técnicas semi-supervisadas las cuales tienen la capacidad de

1 Grupos de dos o más letras, sílabas, o palabras, que son utilizados como base para el simple análisis estadístico de texto.

trabajar con un número reducido de ejemplares de entrenamiento lo cual las hace atractivas frente a las técnicas supervisadas, las cuales demanda importantes recursos (tiempo, personal) para la construcción del conjunto de entrenamiento.

Las técnicas no supervisadas sobresalen por el hecho de que extraen las clases de los propios datos, no necesitan pre-procesamiento y los datos no etiquetados son más fáciles de encontrar en la red, sin embargo; según lo expone Chapelle (2005) las técnicas supervisadas ofrecen resultados más precisos frente a las técnicas no supervisadas y semi-supervisadas; en cambio, Díaz (2007) sostiene que las técnicas como Kohonen y Clustering (técnicas no supervisadas) son las que mejor se adaptan a la dinámica de la producción de información actual.

A lo que se refiere a los métodos se ha encontrado en varias oportunidades a Naive Bayes [Rangel (2004), Martín (2009)] su uso radica en que permiten calcular de forma explícita la probabilidad asociada a cada una de las hipótesis posibles, lo que constituye una gran ventaja sobre otras técnicas, Mitchell (1997). También en la literatura revisada se ha encontrado varias implementaciones de clustering [Aparicio (2008), Fawad (2009)] estos algoritmos se acercan más a la realidad de la información en la red, trabajan directamente sobre los documentos no necesitan ni de estructuración ni categorización previa, trabajan descubriendo grupos.

Aunque los métodos bayesianos parecen reunir todas las características ideales, pero el consumo de tiempo y recursos para construir el modelo de entrenamiento pesa, la cantidad de información en la red necesita de métodos automáticos para su procesamiento, los algoritmos de clustering se adaptan fácilmente a las necesidades de la red; así lo expone Díaz (2007) estos algoritmos son capaces de de filtrar la red descubriendo relaciones y agrupamiento importantes en los documentos. Teniendo presente sus ventajas en este trabajo se emplearan los algoritmos de clustering, principalmente se utilizarán el SimpleKmeans, el algoritmo EM y CobWeb, de los cuales explotaremos su simplicidad de uso, y eficiencia.

2.1.1. SimpleKMeans: Es un algoritmo clasificado como Método de Particionado y Recolocación. Este método representa cada uno de los clusters por la media (o media ponderada) de sus puntos, es decir, por su centroide. Este método únicamente se puede aplicar a atributos numéricos, la representación mediante centroides tiene la ventaja de que tiene un significado gráfico y estadístico inmediato. La suma de las discrepancias entre un punto y su centroide, expresado a través de la distancia apropiada, se usa como función objetivo. La función objetivo, suma de los cuadrados de los errores entre los puntos y sus centroides respectivos, es igual a la varianza total dentro del propio clúster. La suma de los cuadrados de los errores se puede racionalizar, como el negativo del log-likelihood, para modelos mixtos que utilicen distribuciones normales.

2

Page 3: Clasificación Automática de Documentos

2.1.2. EM: Asigna a cada instancia una distribución de probabilidad de pertenencia a cada cluster. Este algoritmo tiene la capacidad de decidir cuántos clusters crear basado en validación cruzada, o en su defecto especificar explícitamente a priori cuantos debe generar. Asumiendo que todas lo atributos atributos son variables aleatorias independientes utiliza el modelo Gaussiano finito de mezclas. Este es más complejo que el KMedias, ya que requiere muchas más operaciones.

2.1.3. Cobweb: Es un algoritmo de clustering

jerárquico, utiliza aprendizaje incremental, realizando agrupaciones instancia a instancia. Durante la ejecución del algoritmo se forma un árbol (árbol de clasificación) donde cada hoja representan los segmentos y el nodo raíz representa el conjunto de datos de entrada. Las instancias se añaden una a una y el árbol se va actualizando en cada paso. Cada actualización debe encontrar el mejor sitio donde debe ir la nueva instancia, esta operación puede necesitar de la reestructuración de todo el árbol o simplemente la inclusión de la instancia en un nodo que ya existía.

Este algoritmo utiliza dos parámetros: a) Acuity: La utilidad de categoría es una estimación de la media y la desviación estándar del valor de los atributos, este parámetro en si representa la medida de error de un nodo con una sola instancia, es decir, establece la varianza mínima de un atributo. b) Cut-off: Utilizado para evitar el crecimiento desmesurado del número de segmentos. Indica en que grado se debe producir la utilidad de categoría para que la instancia sea tenida en cuenta de manera individual.

2.2. Representación de los DocumentosLa representación de los documentos consiste en transformar el contenido de cada documento en un formato común y manejable para el algoritmo de clasificación, existen varias tipos de representación, entre estas se encuentra la representación Vectorial utilizada para operaciones de RI, también son utilizadas ampliamente para procesos de categorización de documentos. Este trabajo utiliza este tipo de representación la cual consiste en la representación lógica que trabaja con un

vector de pesos w ij, el cual indica el grado de relevancia del

término t i en el documento d j, esta relevancia está sujeta a la

frecuencia con que el término t i aparece en el documento d j. t 1 t 2 t 3

… t i… tm

d1 w11 w12 w13… w1 i

… w1m

d2 w21 w22 w23… w2 i

… w2m

… … … … … … … …

d i w i 1 w i 2 w i 31 … w ij… wℑ

… … … … … … … …

dn wn1 wn3 wn3… wnj

… wnm

Tabla 1: Matriz de frecuencia de términos Llidó (2002)

2.3. Conjunto de Entrenamiento y PruebasLos casos que sirve de entrenamiento y pruebas fueron recolectados del repositorio 20-newsgroup el cual es un conjunto de documentos cortos sobre noticias, se encuentra dividido en 20 categorías, para efectos de este trabajo se han considerado las categorías de: Atheism, Baseball, Motorcycles, Politics, Electronics las cuales hablan religión, deprotes, motos, políticos y electrónica. De esta colección se ha escogido el 60% (749) como conjunto de entrenamiento y el restante (40% - 499) serán tomados para probar el clasificador.

Clase InstanciasAtheism 214Baseball 120Motorcycles 315Politics 419Electronics 180

Total 1248Tabla 2: Conjunto de Categorías

Los atributos con los que se trabajan son 3:

2.4. Preparación de DatosUna vez obtenidos los datos, los cuales se encontraban en forma física (documentos) se procedió a indexarlos con la con la finalidad de obtener una vista lógica del contenido de los documentos lo que en si es importante al proyecto y más fácil de manejar, todo el contenido de los documentos se almacenó en un índice del cual se extrajo los atributos con los cuales se va a trabajar:

Nombre: El nombre del documento por el cual se lo identificará.

Contenido (Contents): El cual guarda el contenido de los documentos en formato plano.

Clase: Es un valor nominal que representa a la clase que pertenece

Una vez obtenidos los identificados los parámetros con los que se va a trabajar existen unos pasos previos que se tienen que tienen que realizar y los cuales se detallan enseguida.

2.5. Pre-procesado de DatosPrevios al proceso de clasificación y test debemos trabajar con los datos ya que los atributos en su mayoría son de tipo texto y los algoritmos de clustering no pueden trabajar con esta clase de datos, es por eso que se hace uso de los filtros que provee Weka para el pre-procesado.

3

Page 4: Clasificación Automática de Documentos

2.5.1. StringtoNominal: Este filtro se encarga de nominalizar los atributos de tipo texto en los data set, en nuestro caso será aplicado al atributo Titulo.

2.5.2. StringToWordVector: Transforma el contenido de cada documento tipo texto en vectores de pesos, utiliza un stemmer2, un tokenizador3 y un archivo pasado pro parámetro que contiene el listado de stopword4 (palabras vacías), los resultados que arrojan son: {12,14,56,23,66,11,34}

2.5.3. Remove: En este punto la variable que contiene la clase a la que pertenece cada documento resulta irrelevante para el análisis esa así que se procede a eliminarla.

2.5.4. NumericToBinary: Este se encarga de transformar a binarios cada número del vector de representación, es aplicado al contenido cada documento.

2.5.5. BestFirst: busca en el espacio de atributos aquellos subconjuntos de atributos más representativos utilizando la estrategia greedy hillclimbing con backtracking.

2.5.6. CfsSubsetEval : Evalúa un subconjunto de atributos considerando la habilidad predictiva individual de cada variable, así como el grado de redundancia entre ellas. Se prefieren  los subconjuntos de atributos que estén altamente correlacionados con la clase y tengan baja intercorrelación

Estos filtros permiten encontrar los atributos más representativos para cada clase, del conjunto de datos destacan los siguientes atributos:

Porcentaje index Atributo56% 2 #include_binarized78% 3 AMI_binarized

100% 4 ASPI4DOS_binarized67% 5 AT&T_binarized88% 6 ATI_binarized69% 7 Access_binarized95% 8 Adaptec_binarized87% 9 Andrew_binarized89% 10 Apple_binarized54% 11 Apr_binarized76% 12 April_binarized98% 14 Austin_binarized20% 15 Australia_binarized42% 16 BBS_binarized64% 17 BIOS_binarized

Tabla 3: Subconjuntos de atributos representativos del conjunto de datos

2 Reducción de una palabra a su raíz3 División de las oraciones en sintagmas proposicionales.4 Palabras que representan poco

2.5.7. GainRatioAttributeEval: evalúa cada atributo midiendo su razón de beneficio con respecto a la clase.

2.5.8. Ranker: devuelve una lista ordenada de los atributos según su calidad.

Estos dos algoritmos permiten evaluar los atributos de manera individual y permite obtener los mejor posicionados a continuación se presenta una lista de los mismos.

Promedio Merito Promedio2 rank # attributo nombre0.153 +- 0.005 28.1 +- 9.98 992 Q800_binarized0.15 +- 0.003 30.3 +- 5.69 1099 gnu_binarized0.15 +- 0.003 30.4 +- 4.32 924 Driver_binarized0.15 +- 0.007 30.8 +- 7.01 105 IDE_binarized0.15 +- 0.003 31 +- 4.22 1154 news@dartvax_binarized0.15 +- 0.003 31.6 +- 3.77 918 Dartmouth_binarized0.15 +- 0.003 31.6 +- 3.98 1066 dartvax_binarized0.147 +- 0.003 38 +- 6.2 923 Dock_binarized0.144 +- 0.002 39.8 +- 7.93 89 Gateway_binarized0.143 +- 0.003 44.4 +- 7.68 894 15490@waikato_binarized0.143 +- 0.002 45.3 +- 8.74 968 Mirsky_binarized0.143 +- 0.003 45.7 +- 7.99 964 Marvin_binarized0.143 +- 0.003 46 +-13.27 1171 procedure_binarized0.143 +- 0.003 46.1 +- 8.4 1091 fnal_binarized0.143 +- 0.003 47.5 +-10.67 939 IIfx_binarized0.142 +- 0.005 46.6 +-14.16 1032 aux_binarized0.142 +- 0.005 46.7 +-15.63 1158 noah@apple_binarized0.142 +- 0.007 46.8 +-19.57 901 Bernoulli_binarized0.138 +- 0.004 55.2 +-12.84 1157 noah_binarized

Tabla 4: Lista de atributos con los mejores promedios según su calidad

2.6. Herramientas a utilizar

Las herramientas que se van a utilizar en este proyecto son: Netbeans5, Como entorno de desarrollo Librería Apache Lucene 6para el pre

procesamiento de los documentos: Remoción de palabras vacías, análisis de frecuencia de términos

WEKA7, librearía especializada en algoritmos de aprendizaje automático, entre estos se encuentra los algoritmos a Implementar: SimplekMeans, EM,CobWeb

3. Pruebas3.1. Definición de las Métricas

Para medir el funcionamiento de cada técnica se utilizarán las medidas de precisión y exhaustividad8 y utilizadas para las operaciones de RI además de la distribución F9, ya que son ampliamente utilizadas en problemas de clasificación de documentos [Figuerola (2000), Téllez (2003)]. Estas se calculan a partir de las siguientes ecuaciones:

5 http://netbeans.org/6 http://lucene.apache.org/7 http://www.cs.waikato.ac.nz/ml/weka/8 Es ofrecer el mayor repertorio posible y pertinente respecto de temas, conceptos y objetos representados en el documento9 Técnica del análisis de varianza (ANOVA), con lo que se comparan tres o más medias poblacionales para determinar si son iguales o que tan compactas son.

4

Page 5: Clasificación Automática de Documentos

R= aa+c

Precisión

P=a

a+b Exhaustividad

Donde: a es el número de documentos pertenecientes a una clase y adscritos a esa claseb es el número de documentos no pertenecientes a una clase pero asignados a esa clasec es el número de documentos pertenecientes a una clase no asignados a esa clase

Además se analizan la desviación estándar y la taza de error para conjunto de datos para analizar la efectividad de cada técnica empleada, estos datos son provistos por Weka.

3.3 Interpretación de los resultados3.1.1. Kmeans:Al utilizar este algoritmo con los valores por defecto (Iteraciones 500 y seed 10) no se obtuvo buenos resultados, la clasificación fue mediocre para las clases expuestas, por tal motivo se procedió a utilizar el mismo conjunto de datos variando las iteraciones y el seed todo esto con el fin de mejorar los resultados, después de haber hecho varias corridas, se llego a un punto máximo donde la clasificación no podía mejorar más (ver tabla 4), el cambio del método para calcular la distancia fue preponderante ya que con la Distancia Euclideana los resultados no superan el 45% de precisión en cambio con la distancia de Manhattan se alcanzó un valor máximo de precisión de 56 % (corrida 5 y 6). Esto tiene su razón de ser ya que el resultado final del Cluster depende radicalmente a la medida de asociación utilizada Mahía (2009)

Corrida Iteraciones Seed Relative error Precisión Recall F-Measure Distancia1 10000 10 67,9 0,44 0,482 0,46 Euclidean2 20000 10 67,9 0,446 0,482 0,46 Euclidean3 10000 5 76,3 0,385 0,415 0,316 Euclidean4 20000 5 76,37 0,385 0,415 0,316 Euclidean5 20000 5 44,8 0,56 0,45 0,354 Manhattan6 10000 5 44,8 0,56 0,45 0,354 Manhattan7 20000 10 87 0,351 0,33 0,321 Manhattan8 10000 10 87,47 0,351 0,33 0,321 Manhattan9 10000 15 63,32 0,494 0,515 0,491 Euclidean10 20000 15 63,32 0,494 0,515 0,491 Euclidean11 20000 30 82,25 0,272 0,37 0,23 Euclidean12 20000 30 74 0,28 0,43 0,291 Manhattan13 20000 15 76 0,41 0,415 0,393 Manhattan

Tabla 5: Configuraciones y resultados de 13 corridas con simplekmeans

A pesar de que se utilizó las configuraciones de la corrida con los mejores resultados, aun se mantiene el problema de la clase baseball cuyos elementos el clasificador no puede catalogar.

Precision Recall F-Measure Class0.353 0.625 0.451 electronics0.509 0.826 0.63 motorcycles

1 0.033 0.065 politics1 0.067 0.125 atheism0 0 0 baseball

Promedio 0.56 4,5 0.354

Corr

ida

6

Tabla 6: Resultados de la corrida 6

Esto se debe a que los elementos de esta clase tienen un valor demasiado pequeño de heterogeneidad con respecto a los demás, es decir que su similaridad es tan inapreciables que el clasificador termina asignándolos a clases diferentes Esto puede ser corregido con un pre-procesamiento de datos más profundo. Mahía (2009) propone algunas técnicas para contrarrestar este problema: una correlación de conexión entre variables y Medidas de similitud para variables nominales binarias.A continuación se presenta la matriz de clasificación resultante con los valores de cada clase.a b c d e <-- classified as

199 18 3 23 0 | a = electronics12 345 23 44 0 | b = motorcycles21 8 120 25 0 | c = politics16 12 332 180 0 | d = atheism

6 17 54 78 0 | e = baseball

Tabla 7: Matriz de Confusión SimpleKMeans3.1.2. EM

La clasificación con esta técnica se encontró la mejor configuración en la tercera corrida con superiores resultados que aplicando simpleKmeans. En esta técnica se redujo el número de iteraciones a 50 y elseed se mantuvo en 100 para obtener resultados deseados.

Precision Recall F-Measure Class0.459 0.354 0.4 electronics0.521 0.913 0.663 motorcycles0.063 0.033 0.043 politics

0.5 0.433 0.464 atheism0 0 0 baseball

Promedio 0.374 0.47 0.401

Corr

ida

3

Tabla 8: Resultados de la corrida 3

En la siguiente tabla se muestran la matriz de confusión resultante de la configuración empleada, los resultados son muy buenos a pesar de que persiste el problema de la clase baseball cuyos elementos han sido asignados a otras clases.

a b c d e <-- classified as302 30 1 0 0 | a = electronics2 398 1 3 0 | b = motorcycles12 12 165 5 0 | c = politics3 3 11 199 0 | d = atheism3 13 2 5 0 | e = baseball

Tabla 9: Matriz de Confusión EM

EM Computacional es costoso pero posee mayores beneficios a los que se refiere a clasificación ya que posee un método iterativo e incremental basado en la maximización de la probabilidad, aunque para este caso dicha maximización abarco las instancias de la clase

5

Page 6: Clasificación Automática de Documentos

baseball aunque este punto puede ocasionar problemas en futuras clasificaciones puede ser remediado con un mejor reprocesamiento de los datos.

4. Conclusiones y trabajo futuroEn este trabajo se han llegado a las siguientes conclusiones:

4.1. Conclusiones No todas las agrupaciones generadas por

los algoritmos clustering son representativas.

El algoritmo clustering no puede recuperarse de decisiones incorrectas.

El coste computacional de los algoritmo de

clustering crece a razón de O n2

Se debe conocer bien la naturaliza del problema para cuestiones de pre-procesado de datos e interpretación de resultados

Los caracteres especiales, números y palabras vacías afectan gravemente el proceso de clasificación.

Se pueden mejorar los resultados de clasificación aplicando mecanismos de Procesamiento de Lenguaje Natural (PLN)

La selección de atributos (BestFirst, Raker, GainRatioAttributeEval, CfsSubsetEval) ayudan a mejorar enormemente la clasificación

La exhaustividad no necesariamente está relacionada con la precisión.

Para una clasificación efectiva se debe considerar la distribución de los atributos en cada clase para medir si son representativos.

5. Bibliografía Aparicio, R. y Acuña, E (2008). “Clasificación

Semi-Supervisada de Documentos”. Departamento de Ciencias Matemáticas, Universidad de Puerto Rico. Extraído el 5 de mayo de 2010 desde: www.iiis.org/CDs2008/CD2009CSC/CISCI2009/PapersPdf/C758MD.pdf

Chapelle O. and Zien A.” Semi-Supervised classification by low density separation”. 10th workshop on AI and stat Extraído el 10 de Mayo de 2010 desde: http://www.kyb.mpg.de/publications/pdfs/pdf2899.pdf

Cruz, F. Troyano, J y Ortega, J. (2006) “Clasificación de documentos basada en la opinión: experimentos con un corpus de críticas de cine en español”. Universidad de Sevilla-España. Extraído el 3 de Mayo de 2010 desde:

www.sepln.org/revistaSEPLN/revista/41/sec3-art2.pdf

Fawad, S. y Bisson, G. (2009) “Text Categorization Using Word Similarities Based on Higher Order Co-occurrences”. Extraído el 10 de Mayo de 2010 desde: http://www.siam.org/proceedings/datamining/2010/dm10_001_hussains.pdf

Figuerola, C. Zazo, A. y Alonso, L. (2000). “Categorización de documentos en español: algunos resultados experimentales“. Universidad de Salamanca. Facultad de Documentación. España – Salamanca. Extraído el 17 de abril de 2010 desde: reina.usal.es/papers/figuerola2000categorizacion.pdf

Guzman, R. (2009).”Categorización Semi-automática de documentos usando la Web como corpus”. Universidad Politécnica de Valencia. Valencia-España. Extraído el 15 de abril de 2010 desde http://dspace.upv.es/xmlui/handle/10251/6562.

Lilac, A. “Auto Classification for Search Intelligence”. Extraído el 13 de Mayo de 2010 desde: http://www.waset.org/journals/waset/v49/v49-150.pdf

Martin, M. y Villena, J. (2009). “Sistema de Clasificación Automática de Críticas de Cine”. Universidad Carlos III. Madrid-España. Extraído el 6 de Mayo de 2010 desde: http://e-archivo.uc3m.es/bitstream/10016/5846/1/PFC_Miriam_Martin_Garcia.pdf

Mitchell, T. (1997). “Machine Learning”, McGraw-Hill. Extraído el 10 de Mayo de 2010 desde: http://www.cs.cmu.edu/~tom/mlbook/NBayesLogReg.pdf

Rangel, M. y Penas, A. (2004):”Clasificación de Páginas Web en Dominio Específico”. Universidad de Madrid. Extraído el 10 de Mayo de 2010 desde: http://www.sepln.org/revistaSEPLN/revista/41/sec3-art4.pdf

Salton, G. (1968). “Automatic Organization Retrieval”. Universidad de Michigan. New York: McGraw-Hill.

Yolis, E. (2003):” ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS”. Universidad de Buenos Aires. Extraído el 10 de Mayo de 2010 desde: http://laboratorios.fi.uba.ar/lsi/yolis-tesisingenieriainformatica.pdf

Zubiaga, A. (2009): “Aproximaciones a SVM semisupervisado multiclase para clasificación de páginas web”. Extraído el 9 de Mayo de 2010 desde: www.sepln.org/revistaSEPLN/revista/.../03Articulos-p16-63a70.pdf

Figueras, S. (2001): "Análisis de conglomerados o cluster". Universidad de Zaragoza – España. Extraído el 9 de Mayo de 2010 desde: http://www.5campus.org/leccion/cluster

Téllez, A. (2003) y otros. “Aplicando la Clasificación de Texto en la Extracción de Información”. Instituto Nacional de Astrofísica Óptica y Electrónica. Puebla –México. Universidad

6

Page 7: Clasificación Automática de Documentos

Politécnica de Valencia. Valencia, España. Extraído el 5 de mayo de 2010 desde: http://ccc.inaoep.mx/~mmontesg/publicaciones/2004/IEconClasificacion-tallerENC04.pdf

Díaz, C. (2007): “CLASIFICACIÓN NO SUPERVISADA”. Universidad Carlos III. Extraído el 5 de mayo de 2010 desde: http://clustering.50webs.com/docs/clasificacion_no_supervisada.pdf

Llidó, María D. (2002). Extracción y Recuperación de Información Temporal. Tesis Doctoral. Universidad Jaume I. Extraído el 12 de Diciembre de 2009 desde http://www.tesisenxarxa.net/TESIS_UJI/AVAILABLE/TDX-0630104-124212//llido.pdf

Maldonado M. (2002). Hermes: Servidor y biblioteca de modelos de recuperación de información. Tesis. Universidad de las Américas Puebla. Extraído el 19 de Enero de 2010 desde: http://catarina.udlap.mx/u_dl_a/tales/documentos/lis/maldonado_n_mf/capitulo_2.html.

Mahía, R (2009):” INFORMÁTICA APLICADA AL ANÁLISIS ECONÓMICO - FONDO SOCIAL EUROPEO”. Universidad Autónoma de Madrid. UDI de Econometría e Informática - Dpto. Economía Aplicada. Extraído el01 de Junio de 2010 desde: http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF

7