departamento de informática g. s eb astiá nm o ra y 2/39hallende/bajadas/redes/... · • con...

�

��

��

��

Mg. Sebastián Moreno ArayaDr. Héctor Allende Olivares

Curso de Redes Neuronales Artificiales.

Departamento de Informática

Mg. Sebastián Moreno Araya

2/39

��

• El problema de reconocimiento de patrones se puede modelar como

P(Y,X)=P(Y/X)*P(X)Donde P(X) se asume conocida lo que implica que el estudio se enfoque en P(Y/X).

• ¿Que sucede si no se conoce P(X)?

• En ese caso no se puede estudiar P(Y,X), por lo cual, se debe estudiar además P(X) y en ese caso se comienza a utilizar las redes con aprendizaje no supervisado.


3/39

��

• Las redes neuronales fueron desarrolladas para poder modelar operaciones del sistema nervioso humano.

• Las Redes Neuronales Artificiales (RNA) corresponden a una clase de modelos coneccionistas.


4/39

��

• Una neurona es una célula nerviosa y es el elemento fundamental de la arquitectura nerviosa.

• El traspaso de información entre dos neuronas se denomina sinapsis y es lo que logra que la información sea transmitida y procesada por el cuerpo humano.

��

��

��

��


5/39

��

• Las RNA consisten en un conjunto de procesadores elementales denominadas neuronas artificiales conectadas entre sí.

• Hitos de las RNA– Perceptrón (1943)– M. Minsky and S. Papert. (1960)– Perceptrón multicapa y Backpropagation (1982)– Mapas Autoorganizativos (1982)


6/39

��

• Una neurona artificial es un dispositivo simple de cálculo que a partir de un vector de entrada, genera una salida emulando los sistemas biológicos existentes.

�


7/39

��

• Un conjunto de neuronas conectadas forman una red neuronal, además, las neuronas se pueden organizar en capas formando distintas arquitecturas de redes neuronales.


8/39

��

• El entrenamiento de una red neuronal es el proceso donde se ajustan los pesos sinápticos a través de la presentación iterativa de datos, tratando de optimizar su respuesta mediante la minimización de una función optimal.

• Tipos de entrenamiento:– Aprendizaje Supervisado– Aprendizaje No Supervisado– Aprendizaje Híbrido– Aprendizaje Reforzado


9/39

��

• El aprendizaje competitivo consiste en un conjunto de vectores vi que compiten entre sí para modelar un espacio de entrada.

• Dos tipos de aprendizajes competitivos son:– Aprendizaje Competitivo Rígido

– K-MEANS

– Aprendizaje Competitivo Suave• Con restricción de topología

– Self Organizing Maps• Sin restricción de topología

– Neural Gas


10/39

��

• El modelo Neural Gas consiste en un conjunto de M unidades: A=(c1,...,cM), donde cada unidad tiene asociado un vector de referencia que indica su posición en el espacio de entrada.

• Los vecinos de la red NG son definidos por un ranking de orden basados en la distancia entre un prototipo y el vector de entrada.

�

�� ℜ∈


11/39

��

• El entrenamiento de la red consiste en:– Definir el ranking de vecinos:

• Donde es el vector más cercano a• Donde es el vector más lejano a

– Establecer la función de vecindad.

– Regla de aprendizaje:

• Donde M es el número de neuronas que deben ser entrenadas• α Constante monótonamente decreciente.

��

� �� λλ �� =

Número k asociado con cada vector mjConstante Monótonamente decreciente

�� −��

��−��

�� =−+=+ λα


12/39

��!��"�� #��$

• La red Self Organizing Maps (SOM) o mapa autoorganizativo es creada por Teuvo Kohonen en 1982.

• La popularidad de las redes SOM se debe principalmente a la capacidad de poder preservar la topología de los datos proyectándolos en una malla de dimensión más baja.

• SOM es una poderosa herramienta para el trabajo de data mining, pero también es utilizada en diversas aplicaciones tales como: reconocimiento de la voz, reconocimiento de textos manuscritos, problemas de optimización, análisis de textura y organización de documentos, entre otros.

��


13/39

!"��

• La arquitectura de una red SOM consiste en una capa de entrada y una capa de salida.

• La capa de entrada se conforma por N neuronas la cual recibe el vector de entrada para traspasar la información a todas las neuronas de la capa de salida.

• La capa de salida esta conformada por K neuronas conectadas de cierta manera la cual forma una malla.


14/39

!"��

• Se pueden realizar 2 fases de entrenamiento en la red SOM la de sintonización y la de afinamiento.


15/39

!"�� #�"%$

• La neurona cuya distancia sea mínima al vector de entrada se declara ganadora y se denomina BestMatching Unit (BMU).

• Comúnmente la distancia utilizada es la euclidiana aunque existen otras métricas con las que se han obtenido resultados favorables.

��!��"��

��

�� =

==


16/39

!"��

• Una vez que la neurona ganadora es seleccionada se procede a la actualización de los pesos de las neuronas mediante la formula de adaptación:

��#$��

� � � �� $�� %� � &�� =−+=+ α

��'��(��'��


17/39

!"��&� � ��

• La tasa de aprendizaje α(t) es una función monótonamente decreciente con el tiempo que varia entre 0 y 1, que indica que tanto afecta la actualización del peso.

ααααα � � � �� −+=α

αα

αα

� ��

�

��

�=

�

� �

�� ≤= �� αα ��≅= �� αα

�� =α


18/39

!"��'��

• La función de vecindad de las redes SOM determina cuáles son las neuronas vecinas que deben ser actualizadas cada vez que se presenta un dato en el entrenamiento.

��

≤>

= � ��

� ��

��

��

��

��

��

Funciónescalón �� −+=

)


19/39

( ��

• Los pesos de la red SOM al igual que en el modelo neural GAS corresponden a vectores en el espacio de entrada, por lo cual es necesario aplicar una técnica de visualización para poder ver esto en sólo 2 dimensiones.

• Una de las técnicas más simples es la U-Matrix.


20/39

( ��%�) "��*

• La U-matrix consiste en calcular la distancia existente entre las distintas neuronas y en base a ello generar un mapa de colores que permita al usuario visualizar el comportamiento de la red.

Ejemplo de malla 2x5


21/39

( ��%�) "��*

• Resultados de un experimento con ratones de laboratorio


22/39

+��,��

• Existen diversos problemas que pueden afectar el aprendizaje de la red neuronal:– Sensibilidad a la presencia de Outliers– Interferencia Catastrófica


23/39

"-�� ,� ��

• Los outliers o datos aberrantes se pueden definir como datos que se alejan fuertemente del modelo estocástico subyacente sugerido por la mayoría de los datos.

• La Teoría de Robustez Estadística trata el tema de la existencia de pequeñas desviaciones en los modelos supuestos.

�* �� +� =+−∂∂= � � �

�� δ

�+�� =γ

��(��'��,��'��

'�-��'��.��


24/39

��,� �� !"

• El impacto de un dato en la regla de aprendizaje de la red SOM, será medido como el supremo del salto de aprendizajedado por:

• Al ser infinito el salto de aprendizaje entonces la red SOM no es B-robusta.

% � � &��

−ℜ∈

α

/


25/39

"��,� � ��!��"��

• Se robustece la función de aprendizaje de la red SOM introduciendo una función que disminuya el efecto causado por un dato aberrante

�� $�� =−+=+ ψα


26/39

'�� ,� ��

�� ρ ��ψ


27/39

.�� ,��)+��

• El problema de Interferencia Catastróficase da cuando bajo ciertas condiciones el proceso de aprendizaje de nuevos patrones borra repentina y completamente lo aprendido anteriormente por la red neuronal.


28/39

"��'��*,��/�� !��"��#'� !"$

• El modelo Flexible Architecture of Self Organizing Mapcorresponde a K mapas GSOM que se adaptan al espacio de entrada. Este modelo tiene la capacidad de aprender nuevos datos a través del tiempo sin ser afectado por el problema de interferencia catastrófica.

�

IIII

��!�

��0��

%&

�

�

� �


29/39

'� !"��

• Primera parte: Aprendizaje de la topología de los datos– Paso 1: Agrupamiento de los datos.– Paso 2: Aprendizaje de la topología.– Paso 3: Crecimiento de las mallas.

• Segunda parte: Adaptación a los ambientes cambiantes– Paso 1: Detección de nuevos conjuntos de datos.– Paso 2: Creación e integración de los nuevos mapas.– Paso 3: Aprendizaje de las muestras.– Paso 4: Olvido gradual de los datos.


30/39

'� !"��í��

• Paso 1: Agrupamiento de los datos– Se ejecuta el algoritmo K-means con un umbral bastante

bajo para encontrar un gran número de clusters.

– Luego se ejecuta el algoritmo Single Linkage para unir los clusters más cercanos y obtener un número optimo de clusters.

– Al realizar estos dos algoritmos se obtiene K clusters y sus respectivos centroides.

1


31/39

'� !"��í��

• Paso 2: Aprendizaje de la topología– Se crean K mallas GSOM de tamaño 2x2 bajo

cada centroide.

– Cuando se presenta un dato se obtiene el BMM

– Se actualizan los pesos mediante la formula de adaptación

2**��3**!��"��

��

��

∈===

ςBMU

ςα �� ∈∀−+=+ �� %� � &��


32/39

'� !"��í��

• Paso 3: Crecimiento del mapa

– Para que el mapa crezca se determina la unidad con mayor rqe, denominada ve y su neurona vecina mas lejana denominada vd.

– Una vez definidos se inserta una fila o columna de neuronas entre ve y vd

– Luego se procede a entrenar el mapa

�!��" ��

�

�

∈=∈

( )��

� ��

−=∈!��"

�

�Inserción de fila

�

� Inserción de columna

� ��


33/39

'� !"��ó�� ,�� ,��

• Paso 1: Detección de nuevos conjuntos de datos– Se calcula la influencia de los datos en el modelo

• Paso 2: Creación e integración de los nuevos mapas– Se crea un nuevo modelo basado en las muestras

el cual se integra con el modelo ya existente obteniendo

• Paso 3: Aprendizaje de las muestras– El aprendizaje del modelo se realiza de la misma manera

que se entrenó el modelo

** �** �� ςδ −=−

%&��

��%&��

��

�−��

%&

�

��

�� ∪= −

��

��


34/39

'� !"��ó�� ,�� ,��

• Paso 4: Olvido gradual de los datos– El olvido se realiza moviendo las neuronas del mapa hacia

su respectivo centroide, y pudiendo contraer el mapa podando una fila o columna de neuronas.

– La regla de olvido esta dada por

– Contracción del mapa

�� ∈∀−−+−= ��% ��& �� λ

Centroide del mapa

Eliminación de una fila


35/39

�� !"


36/39

��'� !"

4


37/39

�,��0�

• Erkki Oja. Unsupervised learning in neuralcomputation. Theor. Comput. Sci., 287(1):187–207, 2002.

• Teuvo Kohonen. Self–Organization and Associative Memory. Springer–Verlag, New York, 2nd edition, 1988.

• T. Martinetz and K. Schulten, A “Neural Gas” learns topologies. Artificial Neural Networks, pages 397-402, 1991.

• S. Moreno. “Robustez y Flexibilidad en los Mapas Autoorganizativos para Ambientes no Estacionarios”. Tesis de Magister, UTFSM 2007.


38/39

�,��0�

• Robert M. French. Catastrophic interference in connectionistnetworks: Can it be predicted, can it be prevented?, Advancesin Neural Information Processing Systems, volume 6, pages1176–1177. 1994.

• F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W.A. Stahel. Robust Statistics. Wiley Series in Probability andMathematical Statistics, 1986.

• P. J. Huber. Robust estimation of a location parameter. Ann. Math. Statist., (35):73–1001, 1964.

• R. Salas, S. Moreno, H. Allende, and C. Moraga. A robust andflexible model of hierarchical self organizing maps fornonstationary environments. To appear Neurocomputing, 2007.

��

��

��

1+�� 2 ��3��4�� 4��

departamento de informática g. s eb astiá nm o ra y 2/39hallende/bajadas/redes/... · • con...

Documents