departamento de informática g. s eb astiá nm o ra y 2/39hallende/bajadas/redes/... · • con...
TRANSCRIPT
�
��������������� �������
�����������������������������������
���� �������� �
Mg. Sebastián Moreno ArayaDr. Héctor Allende Olivares
Curso de Redes Neuronales Artificiales.
Departamento de Informática
Mg. Sebastián Moreno Araya
2/39
����������
• El problema de reconocimiento de patrones se puede modelar como
P(Y,X)=P(Y/X)*P(X)Donde P(X) se asume conocida lo que implica que el estudio se enfoque en P(Y/X).
• ¿Que sucede si no se conoce P(X)?
• En ese caso no se puede estudiar P(Y,X), por lo cual, se debe estudiar además P(X) y en ese caso se comienza a utilizar las redes con aprendizaje no supervisado.
Mg. Sebastián Moreno Araya
3/39
���� ����������
• Las redes neuronales fueron desarrolladas para poder modelar operaciones del sistema nervioso humano.
• Las Redes Neuronales Artificiales (RNA) corresponden a una clase de modelos coneccionistas.
Mg. Sebastián Moreno Araya
4/39
���� ���������� ����������������
• Una neurona es una célula nerviosa y es el elemento fundamental de la arquitectura nerviosa.
• El traspaso de información entre dos neuronas se denomina sinapsis y es lo que logra que la información sea transmitida y procesada por el cuerpo humano.
��������������
���������
�����
�����������
Mg. Sebastián Moreno Araya
5/39
���� ���������� ������ ���������� ���������
• Las RNA consisten en un conjunto de procesadores elementales denominadas neuronas artificiales conectadas entre sí.
• Hitos de las RNA– Perceptrón (1943)– M. Minsky and S. Papert. (1960)– Perceptrón multicapa y Backpropagation (1982)– Mapas Autoorganizativos (1982)
Mg. Sebastián Moreno Araya
6/39
���� ���������� �����������������
• Una neurona artificial es un dispositivo simple de cálculo que a partir de un vector de entrada, genera una salida emulando los sistemas biológicos existentes.
�
Mg. Sebastián Moreno Araya
7/39
���� ���������� �������������
• Un conjunto de neuronas conectadas forman una red neuronal, además, las neuronas se pueden organizar en capas formando distintas arquitecturas de redes neuronales.
Mg. Sebastián Moreno Araya
8/39
���� ���������� ��������������
• El entrenamiento de una red neuronal es el proceso donde se ajustan los pesos sinápticos a través de la presentación iterativa de datos, tratando de optimizar su respuesta mediante la minimización de una función optimal.
• Tipos de entrenamiento:– Aprendizaje Supervisado– Aprendizaje No Supervisado– Aprendizaje Híbrido– Aprendizaje Reforzado
Mg. Sebastián Moreno Araya
9/39
���� ���������� ����������������������
• El aprendizaje competitivo consiste en un conjunto de vectores vi que compiten entre sí para modelar un espacio de entrada.
• Dos tipos de aprendizajes competitivos son:– Aprendizaje Competitivo Rígido
– K-MEANS
– Aprendizaje Competitivo Suave• Con restricción de topología
– Self Organizing Maps• Sin restricción de topología
– Neural Gas
Mg. Sebastián Moreno Araya
10/39
��������
• El modelo Neural Gas consiste en un conjunto de M unidades: A=(c1,...,cM), donde cada unidad tiene asociado un vector de referencia que indica su posición en el espacio de entrada.
• Los vecinos de la red NG son definidos por un ranking de orden basados en la distancia entre un prototipo y el vector de entrada.
�
��� ℜ∈
Mg. Sebastián Moreno Araya
11/39
���������
• El entrenamiento de la red consiste en:– Definir el ranking de vecinos:
• Donde es el vector más cercano a• Donde es el vector más lejano a
– Establecer la función de vecindad.
– Regla de aprendizaje:
• Donde M es el número de neuronas que deben ser entrenadas• α Constante monótonamente decreciente.
����
� ������ ��� λλ ������� �� =
Número k asociado con cada vector mjConstante Monótonamente decreciente
���������� −��� ���
��−��
��������� ���� ������ � ��� � �� =−+=+ λα
Mg. Sebastián Moreno Araya
12/39
���!�������"�� #���$
• La red Self Organizing Maps (SOM) o mapa autoorganizativo es creada por Teuvo Kohonen en 1982.
• La popularidad de las redes SOM se debe principalmente a la capacidad de poder preservar la topología de los datos proyectándolos en una malla de dimensión más baja.
• SOM es una poderosa herramienta para el trabajo de data mining, pero también es utilizada en diversas aplicaciones tales como: reconocimiento de la voz, reconocimiento de textos manuscritos, problemas de optimización, análisis de textura y organización de documentos, entre otros.
����� �������
Mg. Sebastián Moreno Araya
13/39
!"�������������
• La arquitectura de una red SOM consiste en una capa de entrada y una capa de salida.
• La capa de entrada se conforma por N neuronas la cual recibe el vector de entrada para traspasar la información a todas las neuronas de la capa de salida.
• La capa de salida esta conformada por K neuronas conectadas de cierta manera la cual forma una malla.
Mg. Sebastián Moreno Araya
14/39
!"��������������
• Se pueden realizar 2 fases de entrenamiento en la red SOM la de sintonización y la de afinamiento.
Mg. Sebastián Moreno Araya
15/39
!"��������� �������� #�"%$
• La neurona cuya distancia sea mínima al vector de entrada se declara ganadora y se denomina BestMatching Unit (BMU).
• Comúnmente la distancia utilizada es la euclidiana aunque existen otras métricas con las que se han obtenido resultados favorables.
��!���"���
���
��� �����=
==
Mg. Sebastián Moreno Araya
16/39
!"������������ ����� �
• Una vez que la neurona ganadora es seleccionada se procede a la actualización de los pesos de las neuronas mediante la formula de adaptación:
�������#$�����
� � � �� � � ������� ����$���� %� � &�� � � �� =−+=+ α
���'������(��'����
Mg. Sebastián Moreno Araya
17/39
!"��&� � �������������
• La tasa de aprendizaje α(t) es una función monótonamente decreciente con el tiempo que varia entre 0 y 1, que indica que tanto afecta la actualización del peso.
ααααα � � � �� −+=α
αα
αα
� ��
�
����
�=
�
� �
��� ≤= ������ αα �����≅= ������ αα
�������������� ������ =α
Mg. Sebastián Moreno Araya
18/39
!"��'���� ����������
• La función de vecindad de las redes SOM determina cuáles son las neuronas vecinas que deben ser actualizadas cada vez que se presenta un dato en el entrenamiento.
��
≤>
= � ����
� ���� ��
������
������ ��
����
����
����
Funciónescalón �� ���� � � �� −+=
)
Mg. Sebastián Moreno Araya
19/39
( �������
• Los pesos de la red SOM al igual que en el modelo neural GAS corresponden a vectores en el espacio de entrada, por lo cual es necesario aplicar una técnica de visualización para poder ver esto en sólo 2 dimensiones.
• Una de las técnicas más simples es la U-Matrix.
Mg. Sebastián Moreno Araya
20/39
( ���������%�) "���*
• La U-matrix consiste en calcular la distancia existente entre las distintas neuronas y en base a ello generar un mapa de colores que permita al usuario visualizar el comportamiento de la red.
Ejemplo de malla 2x5
Mg. Sebastián Moreno Araya
21/39
( ���������%�) "���*
• Resultados de un experimento con ratones de laboratorio
Mg. Sebastián Moreno Araya
22/39
+��,���� �����������������
• Existen diversos problemas que pueden afectar el aprendizaje de la red neuronal:– Sensibilidad a la presencia de Outliers– Interferencia Catastrófica
Mg. Sebastián Moreno Araya
23/39
"-���� ���,� ��
• Los outliers o datos aberrantes se pueden definir como datos que se alejan fuertemente del modelo estocástico subyacente sugerido por la mayoría de los datos.
• La Teoría de Robustez Estadística trata el tema de la existencia de pequeñas desviaciones en los modelos supuestos.
�* ��� �+� =+−∂∂= � � �
����� δ
�+��� �� ������� =γ
��(����'����,��'����
'�-��'���������������.����
Mg. Sebastián Moreno Araya
24/39
�����,� �������������� !"
• El impacto de un dato en la regla de aprendizaje de la red SOM, será medido como el supremo del salto de aprendizajedado por:
• Al ser infinito el salto de aprendizaje entonces la red SOM no es B-robusta.
% � � &�� ���� � � �� ������ �
−ℜ∈
α
/
Mg. Sebastián Moreno Araya
25/39
"��������,� � ���!�������"��
• Se robustece la función de aprendizaje de la red SOM introduciendo una función que disminuya el efecto causado por un dato aberrante
������� �������� ����$���� � �� �� � � �� =−+=+ ψα
Mg. Sebastián Moreno Araya
26/39
'������ ���,� ��
�� �ρ ��ψ
Mg. Sebastián Moreno Araya
27/39
.��������� ��,����)+�� ������������������������� �����
• El problema de Interferencia Catastróficase da cuando bajo ciertas condiciones el proceso de aprendizaje de nuevos patrones borra repentina y completamente lo aprendido anteriormente por la red neuronal.
Mg. Sebastián Moreno Araya
28/39
"������'��*,������/��������� ���!�������"��#'� !"$
• El modelo Flexible Architecture of Self Organizing Mapcorresponde a K mapas GSOM que se adaptan al espacio de entrada. Este modelo tiene la capacidad de aprender nuevos datos a través del tiempo sin ser afectado por el problema de interferencia catastrófica.
�
IIII
��!�
���0�����
%&
�
�
� �
Mg. Sebastián Moreno Araya
29/39
'� !"������������
• Primera parte: Aprendizaje de la topología de los datos– Paso 1: Agrupamiento de los datos.– Paso 2: Aprendizaje de la topología.– Paso 3: Crecimiento de las mallas.
• Segunda parte: Adaptación a los ambientes cambiantes– Paso 1: Detección de nuevos conjuntos de datos.– Paso 2: Creación e integración de los nuevos mapas.– Paso 3: Aprendizaje de las muestras.– Paso 4: Olvido gradual de los datos.
Mg. Sebastián Moreno Araya
30/39
'� !"�������������������������������� �����
• Paso 1: Agrupamiento de los datos– Se ejecuta el algoritmo K-means con un umbral bastante
bajo para encontrar un gran número de clusters.
– Luego se ejecuta el algoritmo Single Linkage para unir los clusters más cercanos y obtener un número optimo de clusters.
– Al realizar estos dos algoritmos se obtiene K clusters y sus respectivos centroides.
1
Mg. Sebastián Moreno Araya
31/39
'� !"�������������������������������� �����
• Paso 2: Aprendizaje de la topología– Se crean K mallas GSOM de tamaño 2x2 bajo
cada centroide.
– Cuando se presenta un dato se obtiene el BMM
– Se actualizan los pesos mediante la formula de adaptación
2**��3**!���"���
�����
�����
∈===
ςBMU
ςα �� � � �� � � �������� ∈∀−+=+ ���� %� � &�� � � ��
Mg. Sebastián Moreno Araya
32/39
'� !"�������������������������������� �����
• Paso 3: Crecimiento del mapa
– Para que el mapa crezca se determina la unidad con mayor rqe, denominada ve y su neurona vecina mas lejana denominada vd.
– Una vez definidos se inserta una fila o columna de neuronas entre ve y vd
– Luego se procede a entrenar el mapa
�!��" ���� ���
�
�
∈=∈
( )����
� �����
−=∈!��"
�
�Inserción de fila
�
� Inserción de columna
� �� �
Mg. Sebastián Moreno Araya
33/39
'� !"������������� ���,���� ����,����
• Paso 1: Detección de nuevos conjuntos de datos– Se calcula la influencia de los datos en el modelo
• Paso 2: Creación e integración de los nuevos mapas– Se crea un nuevo modelo basado en las muestras
el cual se integra con el modelo ya existente obteniendo
• Paso 3: Aprendizaje de las muestras– El aprendizaje del modelo se realiza de la misma manera
que se entrenó el modelo
** �** �� � ���� �� ςδ −=−
%&���
��%&���
��
�−��
%&
�
���
��� ��� ∪= −
��
��
Mg. Sebastián Moreno Araya
34/39
'� !"������������� ���,���� ����,����
• Paso 4: Olvido gradual de los datos– El olvido se realiza moviendo las neuronas del mapa hacia
su respectivo centroide, y pudiendo contraer el mapa podando una fila o columna de neuronas.
– La regla de olvido esta dada por
– Contracción del mapa
������ ��������� ∈∀−−+−= ����% ��& �� � λ
Centroide del mapa
Eliminación de una fila
Mg. Sebastián Moreno Araya
35/39
������� � !"
Mg. Sebastián Moreno Araya
36/39
��������'� !"
4
Mg. Sebastián Moreno Araya
37/39
�,������0�
• Erkki Oja. Unsupervised learning in neuralcomputation. Theor. Comput. Sci., 287(1):187–207, 2002.
• Teuvo Kohonen. Self–Organization and Associative Memory. Springer–Verlag, New York, 2nd edition, 1988.
• T. Martinetz and K. Schulten, A “Neural Gas” learns topologies. Artificial Neural Networks, pages 397-402, 1991.
• S. Moreno. “Robustez y Flexibilidad en los Mapas Autoorganizativos para Ambientes no Estacionarios”. Tesis de Magister, UTFSM 2007.
Mg. Sebastián Moreno Araya
38/39
�,������0�
• Robert M. French. Catastrophic interference in connectionistnetworks: Can it be predicted, can it be prevented?, Advancesin Neural Information Processing Systems, volume 6, pages1176–1177. 1994.
• F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W.A. Stahel. Robust Statistics. Wiley Series in Probability andMathematical Statistics, 1986.
• P. J. Huber. Robust estimation of a location parameter. Ann. Math. Statist., (35):73–1001, 1964.
• R. Salas, S. Moreno, H. Allende, and C. Moraga. A robust andflexible model of hierarchical self organizing maps fornonstationary environments. To appear Neurocomputing, 2007.
��������������� �������
�����������������������������������
����� ����� ��������
1+������� 2 ������3��4��� �4��