i
CARÁTULA
UNIVERSIDAD TÉCNICA PARTICULAR DE LOJA
La Universidad Católica de Loja
ÁREA TÉCNICA
TÍTULO DE INGENIERO EN INFORMÁTICA
Aplicar Minería de Datos para definir perfiles ocupacionales en selección de
personal requeridos por áreas críticas en la Armada del Ecuador
TRABAJO DE TITULACIÓN
AUTOR: Almeida Cárdenas, Diego Miguel
DIRECTOR: González Eras, Alexandra Cristina.
CENTRO UNIVERSITARIO SAMBORONDÓN
2016
ii
APROBACIÓN DEL DIRECTOR DEL TRABAJO DE TITULACIÓN
Ingeniera.
Alexandra Cristina González Eras.
DOCENTE DE LA TITULACIÓN
De mi consideración:
El presente trabajo de titulación: Aplicar Minería de Datos para definir perfiles ocupacionales
en selección de personal requeridos por áreas críticas en la Armada del Ecuador, realizado
por Diego Miguel Almeida Cárdenas, ha sido orientado y revisado durante su ejecución, por
cuanto se aprueba la presentación del mismo.
Loja, enero de 2016
f) ………………………………………
iii
DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS
“Yo Diego Miguel Almeida Cárdenas declaro ser autor del presente trabajo de titulación:
Aplicar Minería de Datos para definir perfiles ocupacionales en selección de personal
requeridos por áreas críticas en la Armada del Ecuador, de la Titulación de Ingeniero en
Informática, siendo Alexandra Cristina González Eras directora del presente trabajo; y eximo
expresamente a la Universidad Técnica Particular de Loja y a sus representantes legales de
posibles reclamos o acciones legales. Además certifico que las ideas, conceptos,
procedimientos y resultados vertidos en el presente trabajo investigativo, son de mi exclusiva
responsabilidad.
Adicionalmente declaro conocer y aceptar la disposición del Art. 88 del Estatuto Orgánico de
la Universidad Técnica Particular de Loja que en su parte pertinente textualmente dice:
“Forman parte del patrimonio de la Universidad la propiedad intelectual de investigaciones,
trabajos científicos o técnicos y tesis de grado o trabajos de titulación que se realicen con el
apoyo financiero, académico o institucional (operativo) de la Universidad”
f. …………………………………………………… Autor: Diego Miguel Almeida Cárdenas Cédula: 170912602-1
iv
DEDICATORIA
Dedico este trabajo a mis padres Miguel Almeida y Laura Cárdenas, quienes siempre me
apoyaron incondicionalmente y fueron los gestores para iniciar esta ardua labor. También a
mi esposa e hijos a quienes amo muchísimo, Paula, Joaquín y Natalia, quienes con su apoyo
y estímulo, fueron un incentivo permanente para lograr la culminación de este trabajo.
v
AGRADECIMIENTO
Agradezco a todos los docentes de la universidad, que con su esfuerzo y guía nos dieron las
herramientas del conocimiento, y en especial a mi tutora Ingeniera Alexandra González, quien
fue una guía excepcional para la culminación de este trabajo; así mismo, agradezco al
personal del Centro de Tecnologías de la Información de la Dirección General de Personal de
la Armada quienes siempre me apoyaron durante la obtención de la información y en general
a la Universidad Técnica Particular de Loja, quien no solo ha sido una institución que me dio
el conocimiento, sino también me guio por el verdadero sentir de la ciencia, que debe estar al
servicio de la sociedad y de un futuro mejor para todos.
vi
ÍNDICE DE CONTENIDOS
Contenido
CARÁTULA ............................................................................................................................................................. i
APROBACIÓN DEL DIRECTOR DEL TRABAJO DE TITULACIÓN ............................................................ ii
DECLARACIÓN DE AUTORÍA Y CESIÓN DE DERECHOS ....................................................................... iii
DEDICATORIA ..................................................................................................................................................... iv
AGRADECIMIENTO ............................................................................................................................................. v
ÍNDICE DE CONTENIDOS ................................................................................................................................ vi
RESUMEN ............................................................................................................................................................. 1
ABSTRACT ............................................................................................................................................................ 2
INTRODUCCIÓN .................................................................................................................................................. 3
1. MINERÍA DE DATOS Y SU APLICACIÓN A LOS RECURSOS HUMANOS .......................... 5
1.1. Introducción al ámbito de la Selección de Personal .................................................................... 6
1.2. Conceptos básicos sobre Gestión de Personal ........................................................................... 6
1.3. La Minería de Datos como apoyo a la Selección de Personal .................................................. 8
1.3.1. Contextualización .............................................................................................................................. 8
1.3.2. Técnicas de minería ......................................................................................................................... 9
1.3.3. Selección de la Técnica de Minería ............................................................................................. 11
1.3.4. Metodologías de Minería de datos ............................................................................................... 11
1.3.5. Selección de la Metodología ......................................................................................................... 13
1.3.6. Descripción de la Metodología CRISP-DM ................................................................................. 14
2. CONTEXTUALIZACIÓN DE LA PROBLEMÁTICA ................................................................... 18
2.1. Procesos de Selección de Personal en la Armada.................................................................... 19
2.2. Problemas presentados en la Selección de Personal ............................................................... 21
2.3. Propuesta de Trabajo ..................................................................................................................... 23
2.3.1. Objetivo ............................................................................................................................................ 23
2.3.2. Objetivos Específicos ..................................................................................................................... 23
2.3.3. Resultados Esperados ................................................................................................................... 24
3. FASE I: COMPRENSIÓN DEL NEGOCIO ................................................................................. 25
3.1. Contexto ........................................................................................................................................... 26
3.2. Objetivos de negocio ...................................................................................................................... 26
3.3. Criterios de éxito de negocio ......................................................................................................... 27
3.4. Inventario de recursos .................................................................................................................... 28
3.5. Requerimientos, presunciones, y restricciones .......................................................................... 29
3.6. Riesgos y contingencias ................................................................................................................ 30
vii
3.7. Terminología .................................................................................................................................... 31
3.8. Costos y beneficios ........................................................................................................................ 32
3.9. Objetivos y Criterios de éxito de minería de datos .................................................................... 34
3.9.1. Determinación de los objetivos de la minería de datos............................................................. 34
3.9.2. Criterios de éxito de la minería de datos ..................................................................................... 34
3.10. Plan del proyecto ............................................................................................................................ 35
3.11. Evaluación inicial de herramientas y técnicas ............................................................................ 41
4. FASE II: COMPRENSIÓN DE DATOS ........................................................................................ 42
4.1. Recolección de datos iniciales ...................................................................................................... 43
4.2. Informe de colección de datos iniciales ....................................................................................... 46
4.2.1. Contexto ........................................................................................................................................... 46
4.2.2. Criterios de Selección .................................................................................................................... 47
4.2.3. Lista de Fuentes de Datos ............................................................................................................. 47
4.3. Informe de descripción de datos .................................................................................................. 48
4.4. Informe de exploración de datos .................................................................................................. 50
4.5. Informe de calidad de datos .......................................................................................................... 50
5. FASE III: PREPARACIÓN DE DATOS ........................................................................................ 53
5.1. Selección de datos ......................................................................................................................... 54
5.1.1. Razonamiento para la inclusión/exclusión .................................................................................. 56
5.1.2. Conclusiones de selección de datos ............................................................................................ 57
5.2. Informe de Limpieza de datos ....................................................................................................... 57
5.3. Construir datos ................................................................................................................................ 59
5.4. Integrar datos .................................................................................................................................. 59
5.5. Formatear datos .............................................................................................................................. 60
6. FASE IV: MODELADO ................................................................................................................... 61
6.1. Selección de la técnica de modelado .......................................................................................... 62
6.1.1. Técnicas de modelado ................................................................................................................... 62
6.1.2. Presunciones del modelado .......................................................................................................... 65
6.2. Generación de la prueba de diseño ............................................................................................. 65
6.3. Construcción del modelo ............................................................................................................... 66
6.4. Evaluación del Modelo ................................................................................................................... 74
6.4.1. Parámetro de ajustes ..................................................................................................................... 74
6.4.2. Modelos ............................................................................................................................................ 74
6.4.3. Descripciones del modelo ............................................................................................................. 77
6.5. Evaluación del modelo ................................................................................................................... 81
6.5.1. Evaluar el modelo ........................................................................................................................... 81
6.5.2. Parámetros de ajustes revisados ................................................................................................. 82
6.5.3. División de los registros ................................................................................................................. 89
viii
7. FASE V: EVALUACIÓN ................................................................................................................. 95
7.1. Evaluación de los resultados ........................................................................................................ 96
7.1.1. Evaluar los resultados .................................................................................................................... 96
7.1.2. Estudio de Casos .......................................................................................................................... 100
7.1.3. Evaluación de los resultados de la minería de datos en lo que concierne a criterios de éxito
de negocio 104
7.2. Modelos aprobados ...................................................................................................................... 105
7.3. Proceso de revisión ...................................................................................................................... 106
7.4. Determinación de los próximos pasos ....................................................................................... 107
7.4.1. Lista de posibles acciones ........................................................................................................... 108
7.5. Decisión .......................................................................................................................................... 108
8. FASE VI: DESARROLLO ............................................................................................................ 109
8.1. Desarrollo del plan ........................................................................................................................ 110
8.2. Plan de supervisión y mantenimiento ........................................................................................ 110
8.3. Informe definitivo de producto ..................................................................................................... 111
CONCLUSIONES ............................................................................................................................................. 112
RECOMENDACIONES .................................................................................................................................... 113
BIBLIOGRAFIA ................................................................................................................................................. 114
ANEXOS ............................................................................................................................................................ 117
1
RESUMEN
La Armada del Ecuador, como institución que contribuye directamente a la seguridad de la
nación, cuenta como base fundamental de su gestión a las unidades operativas, donde la
selección del personal para integrar estas áreas críticas se ha venido realizando en forma
voluntaria y prácticamente no se han utilizado criterios técnicos precisos, que orienten
adecuadamente dicha selección, por lo que se ha considerado la utilización de la información
histórica disponible del personal, para encontrar parámetros de selección válidos, para la
aplicación efectiva de esta selección utilizando Minería de Datos.
Se considera a la metodología CRISP-DM y el método de árboles de decisión como los más
adecuados, y se aplican a una muestra de la población, cuyos datos se han procesado
utilizando la aplicación WEKA, para el análisis y construcción de un árbol de decisión
adecuado a la información existente.
El análisis realizado y la metodología aplicada generaron un árbol de decisión con un
porcentaje bastante aceptable de aciertos, con cuatro parámetros relacionados con la
selección de personal, cuyos datos se pueden obtener de las bases de datos para cualquier
selección futura.
PALABRAS CLAVES: Minería de Datos, selección de personal, metodología CRISP-DM,
árboles de decisión, aplicación WEKA.
2
ABSTRACT
The Navy of Ecuador, as an institution that contributes directly to the nation´s security, has as
the foundation of its management to operational units, where the recruitment to integrate these
critical areas has been carried out on a voluntary basis and have virtually no precise technical
criteria used as to properly orient the selection, which has been considered using the available
historical information of personnel, to find valid selection parameters for the effective
application of this selection using Data Mining.
It´s considers the CRISP-DM methodology and method of decision trees as the most
appropriate, and applied to a sample of the population, whose data have been processed using
the WEKA application for analysis and construction of a suitable decision tree to existing
information.
The analysis and methodology generate a decision tree with a very acceptable percentage of
hits, with four parameters related to recruitment, whose data can be obtained from the
database for future selection.
KEYWORDS: Data Mining, recruitment, CRISP-DM methodology, decision trees, WEKA
application.
3
INTRODUCCIÓN
A medida que las empresas o instituciones van creciendo, también se va extendiendo la
dificultad de los sistemas y/o procesos para cumplir con sus metas, y parte importante de las
tareas necesarias es seleccionar al personal que va a ocupar los puestos que exigen
competitividad y eficiencia; en algunas instituciones además, la selección de personal tiene
una importancia trascendental, ya que ciertos puestos, deben ser ocupados por gente que
esté comprometida y capacitada para que la gestión no sea solo eficiente, sino que se evite
caer en errores graves que comprometan la seguridad del material y del personal, o que
puedan afectar de alguna forma a otras personas ajenas a las funciones ejecutadas.
Una de las instituciones en donde la selección de personal tiene gran importancia es la
Armada del Ecuador, que posee gran cantidad y diversidad de personal y procesos complejos
y relacionados con áreas consideradas críticas, directamente enlazadas a las funciones
primordiales de seguridad nacional, apoyo a la seguridad interna, control de actividades ilícitas
y desarrollo nacional.
El presente documento plantea un estudio enmarcado en la Minería de Datos, que intenta
establecer los parámetros requeridos y las condiciones de selección (algoritmo) que se deben
aplicar a las poblaciones de candidatos a los cursos de las áreas críticas de la Armada, siendo
las especialidades consideradas Superficie, Submarinos, Aviación Naval, Infantería de Marina
e Inteligencia.
En el Capítulo 1 se realiza un análisis más detallado del método y metodología de desarrollo
más apropiado de Minería de Datos relacionado a la selección de personal, así mismo, se
analiza la selección de personal en la Armada y se plantean los objetivos y los resultados
esperados para este trabajo.
En el Capítulo 2 se inicia la metodología CRISP-DM, siendo analizada la primera fase de
comprensión del negocio, analizando todas las implicaciones que tiene la selección de
personal y estableciendo los objetivos y criterios de éxito de la Minería de Datos.
En el Capítulo 3, se continúa con la segunda fase que corresponde a la comprensión de los
datos, es decir, recolectar y analizar datos, que puedan contribuir al análisis posterior.
En el Capítulo 4, la metodología sigue con la fase III de preparación de datos, en donde los
datos seleccionados en la fase anterior se los analizan con mayor cuidado y se decide su
inclusión o exclusión; también se los prepara, integra o formatea para que se puedan utilizar
durante la elaboración del modelo de Minería de Datos.
4
En el Capítulo 5, se realiza el modelado, que consiste en elaborar el diseño del modelo de
Minería de Datos seleccionado y realizar las primeras pruebas para verificar su
funcionamiento.
En el Capítulo 6, se evalúa al modelo desarrollado para comprobar si lo obtenido corresponde
a los criterios de éxito establecidos y se realizan los ajustes necesarios, para luego definir el
modelo aprobado y tomar una decisión respecto a las acciones posteriores.
En el Capítulo 7, se realiza el plan de desarrollo del modelo, así como se detalla todo lo
requerido para su supervisión y mantenimiento, realizando el informe definitivo del producto,
obteniendo a continuación las respectivas conclusiones y recomendaciones.
Este trabajo resulta sumamente útil para los procesos de selección de personal, ya que la
aplicación efectiva de los parámetros provenientes del modelo, derivarán en procesos
definidos y un mejor desempeño del personal en las áreas consideradas críticas de la Armada,
brindando a la sociedad un mejor y más efectivo empleo de los medios disponibles.
Para lograr esto, se inició estableciendo una metodología de desarrollo para Minería de Datos,
luego se seleccionó el método a utilizar que mejor se aplica a la selección de personal (en
este caso árboles de decisión) para realizar las pruebas sobre un grupo de muestra del
personal de oficiales y tripulantes; todo esto utilizando la aplicación abierta WEKA, de la
Universidad de Waikato (Nueva Zelandia), llegando a obtener los parámetros de selección
adecuados para ser aplicados en procesos de selección futuros.
Los objetivos principales se establecieron en obtener las formas de selección y generar un
algoritmo que determinen los parámetros buscados y las respectivas rutas de selección para
las especialidades, lo cual se logró aplicándolo sobre un grupo de muestra de 100 personas
pertenecientes a la Armada del Ecuador.
El trabajo tuvo ciertas dificultades en cuanto a la obtención, selección y filtrado de los datos,
tomados de la base de datos principal para su limpieza y uso definitivo; pero también se pudo
obtener datos muy útiles e información nueva relacionada a la selección de personal.
La metodología utilizada se basó en CRISP-DM, utilizando como método árboles de decisión
con el algoritmo J48 como base principal de análisis de la información.
5
1. MINERÍA DE DATOS Y SU APLICACIÓN A LOS RECURSOS HUMANOS
6
1.1. Introducción al ámbito de la Selección de Personal
Dentro de las empresas o instituciones, la gestión de los Recursos Humanos que se requiere para
su funcionamiento, es la base para desarrollar la actividad principal de dicha empresa o institución,
y en el caso de las instituciones públicas de un Estado es fundamental para lograr el desempeño
adecuado a la función de servicio a los ciudadanos.
En este sentido, algunas instituciones del estado son relevantes para el bien común y el desarrollo
nacional, y una de estas instituciones son las Fuerzas Armadas, que contribuyen de forma directa
a la seguridad externa y apoyan a la seguridad interna del estado ecuatoriano.
Es por esto que la gestión de los Recursos Humanos en cualquiera de las áreas de Fuerzas
Armadas, resulta relevante para lograr un buen desempeño de las tareas asignadas, y en el caso
de la Armada del Ecuador – al igual que en las otras dos fuerzas Ejército y Fuerza Aérea – existen
áreas críticas en donde se plasman acciones directas de seguridad y que se encuentra a cargo de
personal que debe operar costosos sistemas, equipos, armamento y efectuar operaciones cuya
mala ejecución, pueden causar graves accidentes y afectación a dichos sistemas, equipos o las
personas involucradas y/o ajenas a la actividad realizada.
La administración de personal y sus primeras tareas, que son el reclutamiento y la selección, deben
por tanto ser realizadas con el compromiso de la importancia de esta actividad; sin embargo, la
selección del personal para los cursos en las áreas críticas, han tenido una orientación llevado por
la tradición y preferencia individual, y no se han considerado factores técnicos cuya fuente está
oculta en los datos del personal, que pueden ser una buena base para la toma de decisiones en
este campo.
Por ende, nuestro propósito es que a través de nuestro trabajo, se logre determinar factores que
ayuden a la toma de decisiones en cuanto a la selección de personal en la Armada del Ecuador,
para lo cual, se iniciará con la familiarización de los términos relacionados a este tema.
1.2. Conceptos básicos sobre Gestión de Personal
Con respecto a la administración de personal, Dessler (2001) indica que se cumplen cinco
funciones básicas: planear, organizar, dotar de personal, dirigir y controlar, que representan al
proceso de la administración de personal y que cada una representa lo siguiente:
1. Planificar, se refiere a establecer metas y normas para el futuro de la institución.
2. Organizar, significa implementar la estructura de trabajo, de autoridad y de comunicaciones,
así como dar disposiciones a los empleados.
3. Dotar de personal, consiste primero en determinar qué tipo de empleados se requieren,
seleccionarlos, establecer normas de desempeño y evaluarlos, dar compensaciones,
asesoramiento, capacitación y desarrollo.
4. Dirigir, es verificar que el personal cumpla con su trabajo, conservar la moral y motivación.
7
5. Controlar, significa establecer estándares, evaluarlos y establecer formas de mejoramiento.
Por su parte, Silíceo (2006) indica que la administración de personal debe “comprender y coordinar”
las siguientes funciones: Reclutamiento, Selección, Introducción o Inducción, inventario de los
recursos humanos, evaluación del potencial y desempeño, entrenamiento o capacitación y
planeación de vida y carrera; estas funciones están relacionadas con el concepto de administración
de recursos humanos, que insiste en que el fin último es lograr un sistema efectivo de planeación
de vida y carrera, y a su vez significa “contar con el personal adecuado en número, perfil,
preparación, potencial y actitud, que vaya de acuerdo con los objetivos y cultura de la organización”
(Silíceo, 2006, p. 45)
Como se puede observar en ambos casos, dentro de la administración de personal los factores de
reclutamiento y selección o dotación de personal, son importantes argumentos para las bases del
proceso de gestión de los Recursos Humanos, y como indican Chiavenato, Villamizar y Aparicio
(1983), existen dos formas de considerar al personal, la primera es como personas, es decir, con
personalidad, aspiraciones y valores entre otras, y la segunda como recursos, es decir con
habilidades, capacidades, destrezas y conocimientos; ambas consideraciones son importantes y
su estudio constituye la base de la teoría de las organizaciones; la selección de personas se hace
para alcanzar los objetivos de la empresa, pero a su vez, las personas tienen objetivos individuales
y se valen de la empresa para alcanzarlos, es decir, existe una relación individuo – organización
que bien orientada puede ser una relación cooperativa y satisfactoria pero a su vez puede ser tensa
y conflictiva.
Esto centra la atención en el candidato, y los mismos autores indican que con respecto al candidato
para una organización, se distinguen dos tipos: candidatos reales, que son aquellos que buscan
oportunidades de ubicación en un puesto o algún tipo de beneficio, y los candidatos potenciales,
que son quienes tienen la capacitación para llenar las vacantes en forma satisfactoria por su perfil,
pero que no necesariamente están buscando el puesto.
En base a los tipos de candidatos (ambos válidos), la selección de personal se puede definir como
“un proceso dinámico, cuyo objetivo es encontrar la persona más adecuada (por sus características
personales, aptitudes, motivación etc.) para cubrir un puesto de trabajo en una empresa
determinada” (López, 1999, p. 13).
Entonces, para lograr la finalidad de la selección de personal se debe iniciar con el reclutamiento y
la selección; al respecto el mismo autor López (1999) indica que la selección de personal es distinto
que el reclutamiento, en el sentido de que este último (el reclutamiento) también es un proceso
dinámico, pero que no sigue un proceso determinado, y que su función es buscar a un candidato
idóneo para un puesto determinado considerando el entorno en el cual se debe realizar.
Se entiende entonces que el reclutamiento se orienta a atraer candidatos potenciales, como indica
Chiavenato, Villamizar y Aparicio (1983) “es un conjunto de procedimientos orientados a atraer
8
candidatos potenciales calificados y capaces a ocupar cargos dentro de la organización” (p. 18),
mientras que la selección de personal se orienta más a escoger a un grupo de candidatos para
determinar quien cumple el mejor perfil para el puesto.
En este trabajo, nos centraremos en el proceso de selección de candidatos potenciales,
entendiendo que ya ha sido realizado el reclutamiento y se busca determinar al mejor capacitado
para un puesto (en este caso un alumno que a futuro ocupará un área crítica) dentro de las
especialidades operativas.
1.3. La Minería de Datos como apoyo a la Selección de Personal
1.3.1. Contextualización
Los datos son el elemento básico de la Minería de Datos, tal como lo indican Pardo y otros (2013),
que señalan como aporte de Davenport y Prusak:
Son la mínima unidad semántica, y se corresponden con elementos primarios de información
que por sí solos son irrelevantes como apoyo a la toma de decisiones. La información se
puede definir como un conjunto de datos procesados y que tienen un significado (relevancia,
propósito y contexto), y que por lo tanto son de utilidad para quién debe tomar decisiones, al
disminuir su incertidumbre (p. 1163)
Este enfoque de utilidad de los datos es recogido en la definición de la Minería de Datos, dado por
Conolly y Begg (2005) que la expresa como “el proceso de extraer información válida, previamente
desconocida, comprensible y útil de bases de datos de gran tamaño y utilizar dicha información
para tomar decisiones de negocios cruciales”.
Pero este trabajo no es nuevo, como dice Kantardzic (2011) respecto a que los investigadores
científicos y médicos siempre han estado realizando trabajos sobre extracción de datos y su
procesamiento para obtener nueva información, pero la novedad es que al converger varios de
estos estudios y análisis y al ir creciendo los datos contenidos en estos, dan una excelente
oportunidad a la Minería de Datos para aportar en los aspectos científicos y comerciales, mientras
que Strohmeier y Piazza (2013), dan un nuevo aporte al indicar que si bien la Minería de Datos no
inició con aplicaciones relacionadas a Recursos Humanos, los diferentes aportes realizados por
las investigaciones en este campo, han contribuido para que estos descubrimientos y avances
sean aplicados también a la gestión de recursos humanos; dentro de estos campos de aplicación
podemos citar a la selección de personal, rotación de empleados, jerarquía de personal,
determinación de competencias, planificación de la carrera, costos de recursos humanos,
indemnizaciones, compensaciones y evaluación del desempeño, es decir, en prácticamente todos
los ámbitos relacionados a manejo de personal; por otro lado, Sivaram y Ramar, K.(2010)
manifiestas en este aspecto que se debe realizar una buena selección y mantenimiento del
personal, ya que cada año las empresas de tecnología reclutan nuevos graduados en coordinación
9
con las centros educativos superiores, utilizando una serie de métodos de selección (pruebas,
discusiones grupales, entrevistas etc.), pero que esto demanda un enorme esfuerzo y la
observación de la selección establece la existencia de patrones, pero que son muy complejos para
aislarlos. Por esto, se puede relacionar que dada la enorme complejidad de los procesos de
selección y el avance de la Minería de Datos en este tema, pueden apoyarse mutuamente para
hacer más efectivo el proceso.
Por tanto, la Minería de Datos es totalmente aplicable a la Gestión de Recursos Humanos en
muchas formas y en diferentes campos de aplicación de acuerdo a las necesidades de esta
gestión, y específicamente tiene también su atención en lo que respecta a la selección de personal,
que puede convertirse en uno de los puntos cruciales para un adecuado futuro desempeño de la
fuerza laboral de cualquier empresa o institución, sin embargo, el proceso de selección tiene varias
dificultades, como lo indican Sivaram y Ramar (2010), ya que en los métodos tradicionales de
selección existe una gran desproporción (aproximadamente 1 a 20) entre los candidatos
seleccionados y los candidatos entrevistados, generando un gran gasto de recursos y tiempo.
Ahora bien, hay que tomar en cuenta que existe un patrón en los métodos tradicionales que se
mantiene en los candidatos seleccionados que puede ser aprovechado, y considerando que estos
métodos de selección de personal – como ya se dijo en el párrafo anterior - por un lado generan
gastos en tiempo, personal y recursos para la empresa o institución y por otro, se mantiene una
gran brecha entre los seleccionados y los candidatos considerados, se puede observar la gran
utilidad para la aplicación de la Minería de Datos en estos procesos, aprovechando la ventaja que
dan estos patrones de selección.
1.3.2. Técnicas de minería
En cuanto a las técnicas de Minería de Datos que pueden ser utilizados para reclutamiento de
personal (y otras afines), Strohmeier y Piazza (2013) indican que en relación a la gran amplitud de
las técnicas de minería de datos, quienes apoyan en mejor forma a las funciones de selección de
personal son los árboles de decisión, el análisis de conglomerados, el análisis de asociación, las
máquinas de vectores y las redes neuronales, mientras que Sivaram y Ramar (2010) en forma muy
similar, indican que entre las más populares para extracción de información están los árboles de
decisión, máquinas de soportes de vectores y redes neuronales; estas abren un amplio espectro
para nuevos descubrimientos relacionados al manejo de Recursos Humanos.
Todas estas técnicas tienen una funcionalidad similar en el sentido de que mantienen como
propósito filtrar la información para obtener datos útiles para la gestión de Recursos Humanos; en
relación a esto, y basados en los tipos de técnicas indicadas en el párrafo anterior por Strohmeier
y Piazza (2013), en la siguiente tabla se explica en forma general las diferentes técnicas de Minería
de Datos que se pueden aplicar a Recursos Humanos:
10
Tabla 1. Técnicas de Minería de Datos aplicables para Selección de Personal,
TÉCNICA EXPLICACIÓN
Arboles de
Decisión
Organizan los datos en base a una decisión inicial tomando en cuenta la
influencia que debe tener cada rama, son sistemas relativamente simples de
manejar pero tienen poco campo de complejidad para tareas en las que se
requiere más detalle; muchos de los procesos de recursos humanos requieren
el enfoque selectivo, en donde los árboles de decisión están directamente
relacionados a este tipo de enfoque.
Análisis de
Conglomerados
(Clustering)
Es el agrupamiento de datos para poder identificar tipologías o grupos en
donde existen datos similares, en los cuales se requiere diferenciar de otros
datos existentes, de forma de obtener datos filtrados para conseguir
información sobre lo que se demanda conocer, utilizando herramientas
estadísticas, algoritmos matemáticos u otras para el tratamiento de los datos;
además, de acuerdo a López y González (2007) el utilizar conglomerados
disminuye la precisión por el hecho de que al ser datos agrupados
necesariamente tendrán cierta homogeneidad, por lo que resulta útil cuando
las poblaciones de conglomerados son muy numerosas, lo que en caso de
selección de personal se puede utilizar si se tiene grandes bases de datos
Análisis de
Asociación
Se utilizan para analizar relaciones entre sucesos que aparentemente no
están relacionados, pero que en realidad corresponden a eventos que pueden
generar nuevos eventos y que si tengan relación; se utilizan para realizar
análisis exploratorios que conlleven a predecir comportamientos futuros de
eventos, una de los algoritmos utilizados para asociación es el algoritmo a-
priori.
Este tipo de exploración es utilizable dentro de selección de personal, ya que
el procedimiento de selección utiliza normalmente una serie de sucesos, que
adecuadamente orientado para su uso con análisis de asociaciones pueden
generar nueva información.
Apoyo a las
máquinas de
vectores
Las máquinas de vectores dividen los datos de entrada en varios
subconjuntos o vectores, luego de lo cual a medida que siguen procesando
estos datos, los vectores iniciales se van alineando hasta definir los vectores
finales que clasifican al resto de la información. Esta técnica tiene el
inconveniente de no ser muy adecuado para grandes volúmenes de
información a pesar de la buena capacidad de generalizar y clasificar los
datos. Por este motivo, se puede aplicar a procesos de selección de personal
que no contenga datos extensos, pero si con cierto nivel de complejidad.
11
TÉCNICA EXPLICACIÓN
Redes
neuronales
Esta técnica se suele utilizar para descubrir categorías comunes en los datos,
tiene capacidad para detectar y aprender patrones más complejos y sobre
todo, puede trabajar con datos incompletos; debido a esta característica, y ya
que muchas veces la información utilizada para selección de personal está
incompleta, su uso puede ser útil para esta tarea.
Fuente: Strohmeir y Piazza (2013)
1.3.3. Selección de la Técnica de Minería
En el caso de selección de personal, se debe tomar en cuenta que los tipos de datos son de distinta
índole (no solo numéricos), por lo que la técnica adecuada debe tomar en cuenta esta
consideración o su “conversión” a datos numéricos; al respecto, Strohmeier y Piazza (2013) indican
que entre las principales categorías de técnicas de búsqueda utilizados para temas relacionados a
la gestión del talento humano y sus subdominios fueron los árboles de decisión y análisis de
conglomerados y, luego de sus mediciones (casos de variable n), determinaron que las técnicas
empleadas más frecuentes eran árboles de decisión (n = 28), redes neuronales (n = 27), máquinas
de vectores soporte (n = 15), el análisis de asociación (n = 11), análisis de grupos (n = 11), conjunto
aproximado (n = 10), análisis discriminante (n = 4), la regresión logística (n = 4) y la regresión (n =
3) (p. 2414).
Se observa que los árboles de decisión ha sido la técnica más utilizada; como lo expresan Sivaram
y Ramar (2010), los árboles de decisión tienen un enfoque simple para encontrar el “conocimiento”
oculto en los datos y que este método tiene la ventaja de ser fácil de interpretar, comprender para
comparar información y tomar decisiones, por lo que se considera que los árboles de decisión se
orientan adecuadamente al carácter selectivo de la búsqueda de información oculta, relacionado a
la selección de personal como fundamente principal de este trabajo.
1.3.4. Metodologías de Minería de datos
Además del método seleccionado - en este caso árboles de decisión -, una consideración
imprescindible para cualquier proyecto de Minería de Datos en general y para un proyecto de
Selección de Personal en particular, es considerar la Metodología a utilizarse; a este respecto,
Moine, Haedo y Gordillo (2011), indican que en forma general la orientación y el esfuerzo de la
Minería de Datos se ha encaminado a la extracción de patrones, utilizando métodos como árboles
de decisión, análisis de conglomerados y reglas de asociación, pero no se ha profundizado en la
“forma” de llegar al conocimiento, es decir, en la utilización de las metodologías, que permitirán
llevar el proceso de investigación del conocimiento en forma ordenada, mientras que Conolly y
12
Begg (2005) indican la importancia de llevar una “técnica sistemática”, insistiendo en la importancia
de llevar una metodología para obtener buenos resultados.
Dentro de las metodologías existentes, Moine, Haedo y Gordillo (2011) establecen las siguientes
metodologías, que son las más utilizadas:
Tabla 2. Metodologías más utilizadas para Minería de Datos
METODO
LOGIA GENERALIDADES
SEMMA Creada por el SAS Institute, se define como “el proceso de selección, exploración
y modelado de grandes volúmenes de datos para descubrir patrones de negocio
desconocidos”.
Su nombre se basa en las fases básicas: Sample (Muestreo) Explore
(Exploración), Modify (Modificación), Model (Modelado) y Assess (Valoración) y
promueve una guía general del trabajo a realizar, ya que se encuentra enfocada
en aspectos técnicos, pero excluye el análisis y comprensión del problema que
se está abordando.
Catalyst De acuerdo a Moine (2013), Catalyst es una metodología que recomienda revisar
primero la problemática antes de iniciar el trabajo con los datos, y en los casos
que no se tenga un problema bien definido, iniciar utilizando P3TQ (Product,
Place, Price, Time, Quantity) que plantea la formulación de dos modelos: El
Modelo de Negocio y el Modelo de Minería de Datos. El primero proporciona una
guía para identificar un problema de negocio y los requerimientos reales de la
Organización, mientras el segundo proporciona una guía de pasos para la
construcción y ejecución de modelos de minería de datos. En sus dos modelos,
está compuesta por una serie de pasos llamados “boxes”, luego de una acción,
se evalúan los resultados y se determina el próximo paso (box) a seguir, lo que
permite una flexibilidad muy grande y una amplia variedad de caminos posibles.
CRISP-DM Acrónimo de “Cross-Industry Standard Process for Data Mining”, es la
metodología más utilizada actualmente en proyectos de Minería de Datos.
Creada por el grupo de empresas SPSS, NCR y Daimler Chrysler en el año 2000,
profundiza en mayor detalle ya que estructura el proceso en seis fases:
Comprensión del Negocio, Comprensión de los datos, Preparación de los datos,
Modelado, Evaluación e Implantación. Cada fase no es rígida y se descompone
en varias tareas generales de segundo nivel.
13
METODO
LOGIA GENERALIDADES
Las tareas generales se proyectan a su vez en tareas específicas pero no se
propone como realizarlas.
Fuente: Moine, Haedo y Gordillo (2011)
1.3.5. Selección de la Metodología
Para comparar estas metodologías, se ha establecido la siguiente tabla de contraste:
Tabla 3. Contraste de Metodologías
METODO
LOGIAS COMPARACIÓN
SEMMA VS
CATALYST
Catalyst presenta una guía o primer modelo para identificar un problema de negocio y
los requerimientos reales de la organización, mientras que SEMMA carece de un
análisis del problema.
SEMMA presenta un buen análisis de aspectos técnicos, mientras que Catalyst en
forma similar, tiene un segundo modelo que desarrolla la solución en el aspecto técnico.
SEMMA VS
CRISP-DM
SEMMA solo se afianza en aspectos técnicos ya que en su orientación se asume que
va directamente a resolver un problema preestablecido (orientado solo al desarrollo del
proceso), mientras que CRISP-DM da mucha importancia a la situación de la empresa
y presenta un análisis completo adaptable a la realidad de cualquier empresa
(orientado a los objetivos empresariales)
En la parte técnica, ambas metodologías tienen similitudes: El muestreo, exploración y
manipulación de datos de SEMMA se corresponden a las fases de Análisis y
Preparación de datos de CRISP-DM, mientras que ambas tienen las fases de
Modelado y Evaluación; pero CRISP-DM además tiene la fase inicial de Análisis del
Problema y la fase final de Resultados (ambos relacionados a los objetivos de la
empresa, orientado a la gestión por procesos).
CATALYST VS
CRISP-DM
Catalyst estructura en “boxes” el proceso de creación, que le da un proceso de
desarrollo con múltiples opciones con dos modelos, el primero analiza el problema y el
segundo desarrolla la solución, mientras que CRISP-DM es un proceso continuo y
progresivo en donde se analiza todo el proceso de creación relacionado a la empresa.
Si bien ambas metodologías cubren los aspectos del problema desde el punto de vista
de la empresa y el desarrollo de la solución, CRISP-DM ha sido más utilizado por
empresas que trabajan continuamente en proyectos de Minería de Datos y es el sistema
más utilizado actualmente para proyectos de minería de datos.
Fuente: Moine, Haedo y Gordillo (2011)
Al respecto de la mejor metodología, Infante y otros (2010) indican que en comparación con
SEMMA, esta solamente inicia con muestreo de datos versus el acercamiento del problema
14
empresarial al técnico de CRISP-DM, indicando que “la metodología CRISP-DM está más cercana
al concepto real de proyecto de investigación”; por lo visto en la tabla anterior y al tratarse de un
problema que debe ser estructurado desde su enfoque organizacional hacia el enfoque técnico,
CRISP-DM es la metodología que mejor se adapta para lo requerido en este trabajo.
1.3.6. Descripción de la Metodología CRISP-DM
La guía metodológica a seguir es la elaborada por Chapman y otros (2007), cuyo modelo
comprende seis componentes principales relacionados como se muestra en el siguiente gráfico:
Datos
1- Comprensión del Negocio
2- Comprensión de los Datos
3- Preparación de los Datos
4- Modelado
5- Evaluación
6- Desarrollo
Figura 1. Composición básica del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
El detalle de cada componente de CRISP-DM se expone a continuación:
15
Figura 2. Comprensión del negocio del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
La comprensión del negocio se maneja inicialmente a nivel directivo, consultando como está
estructurada la empresa o institución y se plantean las necesidades que a su vez generan los
objetivos buscados y criterios de éxito del negocio; luego se continúa con la evaluación de la
situación, en donde se analiza el entorno del trabajo a realizar, verificando el inventario de recursos,
requerimientos, presunciones y restricciones existentes así como los riesgos, contingencias y
beneficios, para posteriormente determinar los objetivos de la Minería de Datos y sus criterios de
éxito desde el punto de vista de la Minería de Datos, y por último producir el Plan del Proyecto y
una primera evaluación de las herramientas y técnicas a utilizar.
Figura 3. Compresión de datos del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
En esta segunda fase, se realiza el análisis inicial de los datos con los que se va a trabajar,
empezando por determinar los datos a usar y recolectarlos, realizar una descripción de estos,
identificar problemas presentados en los datos, herramienta utilizada para colectarlos, propiedades
16
de los datos, etc., que son parte de la exploración de los datos y termina con la verificación de la
calidad de los datos como base del proyecto de minería de datos.
Figura 4. Preparación de datos del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
En esta fase se trabaja únicamente con los datos, realizando la decisión de cuales datos van a ser
usados de acuerdo al proyecto de minería, preparar los datos para poder trabajar con ellos, realizar
una limpieza si se requiere, igualmente construir, generar nuevos registros e integrar datos si es
necesario, y finalmente volver a formatear los datos para que se adapten a las necesidades del
análisis que se va a efectuar.
Figura 5. Fase de Modelado del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
Esta es la fase más importante, lo principal en esta fase es seleccionar la técnica real de modelado
que vamos a utilizar ya de forma específica, realizar las presunciones que se tengan sobre los
datos de acuerdo a la técnica escogida, determinar el procedimiento para probar posteriormente el
modelo, generando la prueba de diseño, aplicar las herramientas y lograr construir el modelo,
17
realizar una descripción del mismo y finalmente evaluarlo y revisar o corregir los parámetros de
ajuste.
Figura 6. Fase de Evaluación del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
En esta fase se trata de evaluar el modelo en diferentes factores como la exactitud y la generalidad,
para determinar el grado en que el modelo es aceptable o deficiente respecto a las necesidades
del negocio para lo que fue creado, para posteriormente revisar el proceso en su conjunto para
determinar posibles cambios o re-consideraciones, lograr determinar los siguientes pasos y tomar
una decisión al respecto, sobre mantener o modificar parte o partes del modelo.
Figura 7. Fase de Desarrollo del modelo CRISP DM. Elaborado en base a la metodología CRISP-DM
Fuente: Infante y otros (2010)
En esta fase se toman los resultados obtenidos en la evaluación y se despliega un plan para el
desarrollo de lo obtenido, lo que incluye la supervisión, el mantenimiento y desarrollar el informe
final, realizar la presentación final y hacer una revisión general del proyecto.
18
2. CONTEXTUALIZACIÓN DE LA PROBLEMÁTICA
19
2.1. Procesos de Selección de Personal en la Armada
La Constitución Política del Ecuador, en su artículo 227 dice textualmente que “la administración
pública constituye un servicio a la colectividad que se rige por los principios de eficacia, eficiencia,
calidad, jerarquía, desconcentración, descentralización, coordinación, participación, planificación,
transparencia y evaluación” y de acuerdo a la Ley Orgánica de la Defensa Nacional en su artículo
26, dicta -entre otras cosas- que la Armada del Ecuador – al igual que las otras ramas de las
Fuerzas Armadas - debe “desarrollar el poder militar para la consecución de los objetivos
institucionales, que garanticen la defensa, contribuyan con la seguridad y desarrollo de la Nación”;
de estas y otras normas legales, se desprenden varias responsabilidades asignadas a la Armada
del Ecuador, entre ellas la de organizar, reclutar, clasificar, formar, capacitar y entrenar al personal
de Oficiales y Tripulantes; estas tareas tienen mayor énfasis en las áreas que comprometen riesgo
en las operaciones y que son críticas para el cumplimiento de los objetivos de la institución, y estas
deben ser realizadas por personal comprometido con el nivel de responsabilidad y con las
capacidades necesarias tanto físicas, académicas y psicológicas para un buen desempeño, ya que
de no ser así, puede causar enormes daños a la institución y sus objetivos.
Dentro de la organización de la Armada, y para efectos de este trabajo, las áreas críticas
consideradas se resumen en el siguiente gráfico:
Figura 8. Esquema funcional de las áreas críticas de la Armada.
Fuente: DIGREH
Tanto los Oficiales y Tripulantes se clasifican en Arma, Técnicos, Servicios y Especialistas; de estos
los Oficiales y Tripulantes de Arma pueden optar por las especialidades de: Superficie,
Submarinos, Aviación Naval e Infantería de Marina. Inteligencia se considera como una
subespecialidad a la que pueden optar los Oficiales de Arma y los Tripulantes Técnicos. Las tareas
y curso que deben realizar en forma general estos grupos se detallan en la siguiente tabla:
20
Tabla 4. Especialidades y tareas y cursos que deben desarrollar en la Armada.
ESPECIALIDAD /
SUBESPECIALIDAD DETALLE
Superficie: Quienes operan los buques de guerra y buques auxiliares
Todos los Oficiales y Tripulantes que se gradúan en la Escuela Superior
Naval y en la Escuela de Grumetes, tienen la orientación básica hacia
la Especialidad de Superficie; los Oficiales y Tripulantes que son
designados para esta especialidad, tienen que realizar el Curso de
Superficie durante seis meses, luego pasan a operar los buques de
guerra como Fragatas, Corbetas, Lanchas Misileras y los Buques
Auxiliares como Transportadores, Tanqueros o Remolcadores.
Submarinistas: Operan los submarinos
Los Oficiales y Tripulantes designados para esta especialidad, deben
realizar un curso de un año, luego de lo cual pasan a ser parte de las
dotaciones de los dos submarinos que posee la Armada del Ecuador;
en estos, la capacidad del Oficial y Tripulante para soportar el encierro
y operar con seguridad y conocimiento los equipos dan la pauta para
que puedan integrar las dotaciones de estas unidades.
Aviación Naval: Operan los aviones de exploración y helicópteros
Los Oficiales y Tripulantes designados para esta especialidad, deben
realizar el Curso Básico de Aviación, los Oficiales como pilotos de
aviones de ala fija y los tripulantes como mecánicos de aviación; para
los Oficiales, la capacidad y habilidad de vuelo son primordiales para
lograr graduarse, mientras que para los Tripulantes, deben alcanzar un
nivel de conocimiento adecuado para trabajar como técnicos
aeronáuticos.
Infantería de Marina: Realizar operaciones anfibias y especiales y brindan defensa externa e
interna a bases navales.
En este caso, solamente los Oficiales son seleccionados para la
especialidad de Infantería de Marina, los Tripulantes tienen su propia
escuela de formación, por lo que al graduarse de marineros, ya lo hacen
como Infantes de Marina; para los Oficiales, una buena capacidad física,
el temple y fortaleza de carácter, son primordiales para lograr graduarse
en esta especialidad.
21
ESPECIALIDAD /
SUBESPECIALIDAD DETALLE
Inteligencia: Realizan operaciones de búsqueda de información como base para las
operaciones militares y seguridad interna.
Esta es una subespecialidad, tanto Oficiales como Tripulantes vienen
de otras especialidades previas para realizar el curso; sin embargo, la
selección de este personal es importante ya que integrarán un área
delicada de las Fuerzas Armadas, en donde la capacidad, cautela y
sagacidad son importantes para ingresar.
Fuente: DIGREH
El área del problema a tratar se establece en la Selección de Personal para cursos de
especialización en estas áreas críticas de la Armada, y para la selección de personal de las
especialidades y subespecialidad indicada en la tabla anterior, se sigue un procedimiento que se
lleva de acuerdo al siguiente gráfico:
Figura 9. Esquema funcional resumido de selección de personal para las áreas críticas de la Armada.
Fuente: DIGREH
El proceso de selección considera únicamente como factor primordial de selección de personal el
factor voluntario, y de no ser aplicable (por no alcanzar los cupos) se considera el análisis de perfiles
para disponer la especialidad de los Oficiales y Tripulantes candidatos.
2.2. Problemas presentados en la Selección de Personal
Como se indicó, en la selección de personal para estas especialidades, se tomaban en cuenta
únicamente la preferencia personal y el cupo disponible, dando prioridad a los oficiales y tripulantes
22
de acuerdo a su antigüedad, para que escojan la especialidad o subespecialidad en la que querían
formarse hasta completar el cupo para cada caso.
Sin embargo, este tipo de consideración para la selección presenta diversos problemas, que los
podemos detallar en la siguiente tabla:
Tabla 5. Problemas existentes para la selección de personal en las áreas críticas de la Armada
FACTOR CONSIDERACIÓN / PROBLEMA ORIENTACIÓN A LA SOLUCIÓN
CAPACIDADES La preferencia personal no siempre
está relacionada con las
capacidades del Oficial o Tripulante
para poder desempeñarse de forma
adecuada.
Determinar la mejor opción de
desempeño de acuerdo al análisis
histórico de casos, que permitan
determinar los mejores perfiles del
candidato
DISTRIBUCIÓN
EQUITATIVA
Este tipo de consideración hacía que
en su tiempo, las opciones menos
populares o menos consideradas
reciban a las personas con menor
desempeño académico,
descompensando la equidad con la
que debería distribuirse al personal
en las especialidades.
Orientar a la obligatoriedad del
cumplimiento de los perfiles
seleccionados para lograr un mejor
desempeño personal.
Fuente: DIGREH
Dentro de la Selección de Personal, algunas veces el personal que ha sido escogido para cada
una de las especialidades presenta problemas de adaptación y desempeño en las áreas
asignadas, existiendo deserción y bajo rendimiento en los cursos, siendo en algunas ocasiones,
motivo de pérdida del curso, lo que afecta en gran medida a todo el sistema; a continuación en la
siguiente tabla se detalla los problemas relacionados:
Tabla 6. Problemas derivados de la mala aplicación de selección de personal para las áreas críticas de la
Armada.
ÁREA DEL
PROBLEMA
DETALLE
PRESUPUESTARIO Se afecta al presupuesto considerado para la capacitación de esa persona en
esa especialidad
DISPONIBILIDAD DE
CUPOS
Se pierde un cupo (puesto) que la pudo ocupar otra persona que
seguramente pudo haber tenido un mejor desempeño.
DISPONIBILIDAD DE
FUERZA LABORAL
Se pierde el tiempo de trabajo (lucro cesante) de esa persona mientras
estuvo en el curso sin lograr el objetivo de su capacitación.
23
ÁREA DEL
PROBLEMA
DETALLE
PROCEDIMIENTO La selección de personal implica el análisis de mucha información existente
en las bases de datos, lo cual toma mucho tiempo del personal encargado
para procesar estos datos.
Fuente: DIGREH
Para evitar estos problemas, se considera que al no existir un procedimiento normativo sobre las
consideraciones a tomar en cuenta para aplicar los mejores perfiles para la selección de personal
en relación a la gran cantidad de datos existentes, una aplicación informática basada en el análisis
de datos, dará la pauta adecuada para la solución y puede ser la base para establecer un
procedimiento estándar, por lo tanto, la solución del problema va orientado hacia la aplicación de
un proyecto de Minería de Datos en el campo de la Selección de personal, en base al análisis de
los requisitos de los perfiles de las especialidades y subespecialidad de las áreas críticas en la
Armada y el correspondiente procesamiento de los datos relacionados.
2.3. Propuesta de Trabajo
2.3.1. Objetivo
El principal objetivo determinado para este trabajo es:
Desarrollar un modelo de minería de datos para determinar los factores adecuados para la
selección de personal en cada una de las especialidades en las áreas críticas de la Armada.
2.3.2. Objetivos Específicos
Los objetivos específicos, basados en el objetivo principal son:
Identificar los procedimientos de selección de personal utilizados en las áreas críticas de la
Armada orientado a su utilización con Minería de Datos.
Desarrollar un modelo de minería de datos para determinar los factores adecuados de
selección de personal para áreas críticas de la Armada.
Para el desarrollo de estos objetivos se han considerado inicialmente las siguientes estrategias y
consideraciones a ser aplicadas:
Investigar la metodología de Minería de datos y perfiles ocupacionales, esto es la base para
definir posteriormente los factores a considerar para establecer los procedimientos de
selección de personal relacionados con la minería de datos.
La Minería de Datos está orientada a la aplicación de soluciones a nivel de recursos
humanos.
Las áreas críticas definidas inicialmente son: Superficie, Submarinos, Aviación Naval,
Infantería de Marina e Inteligencia.
24
Durante el trabajo se seleccionará la metodología, la técnica y el modelo más adecuado para
la obtención de los objetivos planteados.
2.3.3. Resultados Esperados
Con este trabajo se pretende obtener:
Un estudio para la solución en el campo informático basado en Minería de Datos, que pueda definir
en forma oportuna y adecuada los patrones de selección de personal previo a los cursos de
perfeccionamiento básicos en las áreas críticas de Superficie, Submarinos, Aviación Naval,
Infantería de Marina e Inteligencia, para apoyar a que el personal de oficiales y/o tripulantes
seleccionados a estos cursos - y que posteriormente ocuparán los puestos dentro de las áreas
críticas - sea el más idóneo para dichas áreas.
Los medios de verificación para este trabajo se refieren al análisis de la información histórica del
personal que labora en estas áreas para determinar los parámetros de selección previa a su
aplicación, basada en los siguientes aspectos:
Los datos de salida del proceso, deben estar acordes con los perfiles más adecuados para
cada especialidad, en base a los datos de entrada escogidos de la base de datos.
Descubrir aspectos importantes que no hayan sido considerados en los métodos
tradicionales de selección para las especialidades.
25
3. FASE I: COMPRENSIÓN DEL NEGOCIO
26
3.1. Contexto
En cuanto a la selección del personal de alumnos para los diferentes cursos de especialidad
(conocidos como cursos de perfeccionamiento), se ha realizado un análisis de la situación en este
campo y se ha observado que el actual proceso de selección de personal para las áreas críticas
de la Armada (Superficie, Submarinos, Aviación Naval, Infantería de Marina e Inteligencia) presenta
el inconveniente de no tener un procedimiento técnico para seleccionar al personal más idóneo
que cubran las necesidades de los perfiles requeridos.
Para solucionar este inconveniente, es necesario en primer lugar, estudiar los perfiles necesarios
para cubrir en forma adecuada los requerimientos de cada especialidad; en segundo lugar,
investigar cuales son las características y datos existentes del personal que podrían aportar para
encontrar patrones ocultos de selección; y luego, realizar el análisis respectivo a fin de determinar
los mejores criterios de selección.
Para lograr esto, si bien existirían varios procedimientos y técnicas, se debe considerar que la
Minería de Datos proporciona las herramientas adecuadas para realizar esta selección de criterios,
y es una poderosa herramienta tanto de selección, como para encontrar factores o información no
considerada inicialmente; por este motivo, se busca optimizar este proceso realizando un proyecto
de Minería de Datos, considerando la utilización del método de árboles de decisión y la metodología
CRISP-DM.
El primer punto a considerar es que existen una organización y perfiles para cada una de las
especialidades y cuyo análisis nos dará una pauta del trabajo a realizar, por lo que se encuentra
detallado en el Anexo A “ORGANIGRAMAS FUNCIONALES Y REQUISITOS PARA CADA
FUNCIÓN”.
3.2. Objetivos de negocio
Si existiera una mala selección de personal se presentan varias desventajas, entre ellas tenemos
que incluso una baja tasa de deserción de los cursos, causa un tremendo impacto en el proceso
de la carrera del Oficial o Tripulante, afectando directamente a su carrera profesional y causando
un gran problema presupuestario y administrativo en la gestión de la Armada.
Por estos motivos, utilizando la información histórica existente en la Dirección General de Recursos
Humanos, se pretende lograr que esta selección de parámetros sea la más adecuada para apoyar
a que los futuros oficiales y tripulantes contribuyan efectivamente y no sean un factor de riesgo
para las diferentes operaciones.
El problema que se presenta es que cuando un alumno pierde un curso, se genera un tremendo
impacto en el proceso de la carrera del Oficial o Tripulante, ya que si no lo aprueba: 1) puede ser
motivo de sanción disciplinaria, 2) debe tomar otro curso de otra especialidad, 3) es motivo para
no ser considerado para el ascenso al siguiente grado militar u otros problemas graves.
27
Otra parte del problema es que se pierde el cupo que podría haber sido asignado a otra persona y
el respectivo presupuesto asignado para ese cupo en ese curso, afectando de este modo a la
planificación de carrera del personal de la Armada, al no contar con el personal estimado disponible
en esa especialidad y ser necesario realizar reajustes u asignación de un nuevo cupo para el
siguiente curso; todos estos problemas causan además demoras administrativas en los procesos
educativos y de personal.
Por tanto, el Objetivo primordial del negocio, que está relacionado al objetivo del trabajo, es el
siguiente:
Determinar los factores de selección de personal para cada una de las especialidades de
Superficie, Submarinos, Aviación Naval, Infantería de Marina e Inteligencia, de tal forma de poder
aplicarlos en una selección futura adecuada para los próximos aspirantes a los cursos en estas
especialidades.
Las preguntas relacionadas a este objetivo son:
¿Cómo afecta el desempeño profesional de cada persona como parámetro de selección
adecuado para los próximos cursos?
¿La información existente en la base de datos de personal de la Dirección General de
Recursos Humanos es adecuada para una buena selección del personal en cuanto a los
parámetros requeridos para la selección?
Otro objetivo relacionado es que los parámetros para la selección, sean coherentes con un
desempeño aceptable del personal de Oficiales y Tripulantes (a futuro), tomando en cuenta las
siguientes condiciones básicas establecidas en la Armada para los cursos en general:
1. Que en cada una de las materias supere el mínimo requerido (16/20)
2. Que el promedio de su desempeño sea de mínimo 16/20
3. Que no tenga problemas de conducta ni adaptación.
Otra consideración es que la evaluación durante el primer año posterior al término del curso la
evaluación de desempeño de cada Oficial y Tripulante que terminan los cursos sea muy buena, es
decir, supere el 18/20.
Por tanto, en relación al “negocio”, este trabajo pretende que a futuro la selección de personal para
las cinco áreas críticas en la Armada del Ecuador, sea realizada de forma eficiente y sin que se
presenten los problemas que aquejan actualmente a este procedimiento.
Los factores considerados para el trabajo de Minería de Datos se pueden ver en el Anexo B
“REPORTE DE REQUERIMIENTOS QUE DEBE CUBRIR EL MODELO DE MINERÍA”.
3.3. Criterios de éxito de negocio
Los criterios de éxito considerados se muestran en la siguiente tabla:
28
Tabla 7. Criterios de éxito del negocio
FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS
SELECCIÓN
DE
PERSONAL
Determinar rangos verdaderos en los que
la selección de personal se pueda basar
para clasificar correctamente al personal
en las especialidades consideradas.
Rangos de selección medibles
respecto a los factores
considerados.
NOTA MÍNIMA
EN CADA
MATERIA
Que cada Oficial o Tripulante en curso
iguale o supere el mínimo requerido en
cada materia.
Superar la nota de 16/20 en
cada materia; se establece un
margen de error de +/- 5%
NOTA MÍNIMA
EN CADA
CURSO
Que cada Oficial o Tripulante en curso
iguale o supere el promedio general en
cada curso realizado.
Superar el promedio general de
16/20; se establece un margen
de error de +/- 5%
CONDUCTA Que su conducta supere la evaluación de
conducta en un nivel adecuado al buen
comportamiento.
Superar la evaluación de 18/20;
se establece un margen de error
de +/- 5%
EVALUACIÓN
DE
DESEMPEÑO
Que el promedio de la evaluación del
desempeño de los Oficiales y Tripulantes
que terminan los cursos, posterior a un
año de labores sea adecuado.
Promedio de desempeño sea
igual o superior al 18/20.
Fuente: DIGREH
3.4. Inventario de recursos
Dentro de esta estructura de la Dirección General de Recursos Humanos, tenemos el Centro de
Tecnologías de la Información de la Dirección General del Talento Humano, que es la encargada
de manejar la Base de Datos de todo el personal de la Armada, a cargo del Sr TNNV-IG Álvaro
Armijos Ramírez.
La base de datos está fundamentada en SQL Server y el Hardware disponible en la Dirección
General de Recursos Humanos se muestra en la siguiente tabla:
Tabla 8. Recursos disponibles del proyecto de minería (Servidores y aplicaciones)
Servidor
No S.O. Procesador Aplicaciones
1 ESXI 02 Procesadores Intel Xeon Six Core 2.67
GHz. RAM: 12 GB
DigpergyeWeb
Sistema de evaluación
2 ESXI 02 Procesadores Intel Xeon Six Core 3.47
GHz. RAM: 12 GB
Discos: 02 Discos de 146 GB c/u
DBReclutamiento
ServerDigital
29
Servidor
No S.O. Procesador Aplicaciones
06 Discos de 500 GB c/u
3 ESXI 5.5 02 Procesadores Intel Xeon Six Core 2.67
GHz. RAM: 12 GB
Discos: 02 Discos de 146 GB c/u
Discos: 06 Discos de 500 GB c/u
Elastix-digreh
4 ESXI 01 Procesador Intel Xeon Quad Core 2.66
GHz. RAM: 6 GB
Discos: 06 Discos de 250 GB c/u
Chat Virtual OTRS
Otrs.Digreh
Reclutamiento
5 Windows
Server
2003
02 Procesadores Intel Xeon Quad Core
3.00 GHZ. RAM: 4 GB
Discos: 08 Discos de 146 GB c/u
Sueldos
6 ESXI 01 Procesador Intel Xeon CPU E5-2630
2.3 GHz. RAM: 16 GB
Discos: 02 Discos de 300 GB c/u
03 Discos de 1 TB c/u
Antivirus2008
Digpergye02
Docuserver2008
Biométrico
Dominiodigper
Fuente: CETEIN (DIGREH)
Dentro del Centro de Tecnologías de la Información, existe personal de Ingenieros de Sistemas,
programadores, digitadores y secretaria, que realizan la revisión, actualización y mantenimiento de
los servidores, aplicaciones y bases de datos; dentro del manejo de la Base de Datos, el encargado
principal es el Ingeniero de Sistemas Alex Ramírez.
3.5. Requerimientos, presunciones, y restricciones
Los requerimientos, presunciones y restricciones se detallan en la siguiente tabla:
Tabla 9. Requerimientos, presunciones y restricciones
FACTOR DETALLE
REQUERIMIENTOS El proyecto debe determinar, de acuerdo a los datos considerados,
los factores de selección del personal más adecuados para cada
especialidad, pero que estén relacionados y sean un aporte a dicha
selección, desechando toda la información, que pudiendo ser
valiosa por sí misma, pero que para el resultado buscado no aporte
en nada o sea un aporte insignificante.
30
FACTOR DETALLE
Los datos principales deben estar agrupados y adaptados a un solo
formato para ser válidos, y su resultado debe estar
comprensiblemente resumido para su entendimiento y
procesamiento.
PRESUNCIONES Se debe asumir que los datos del personal existentes, tanto en su
base como en su desarrollo, contienen la información suficiente para
poder realizar un análisis con minería de datos que arroje resultados
utilizables y verificables.
El grupo objetivo para este trabajo se basa en el personal que ha
terminado los cursos y luego se ha desempeñado en su área
respectiva, tomando en consideración solo el tiempo que
efectivamente se encontró laborando en su área durante un tiempo
mayor a cinco años; con estos datos, se puede aplicar en los
Oficiales y Tripulantes que se encuentran por ingresar para
determinar los perfiles adecuados.
RESTRICCIÓN Existe cierta información en la base de datos que tiene carácter
confidencial, por lo que el acceso a esta información debe ser
coordinado o manipulada de tal forma que no sea asociada a una
persona en particular sino a un perfil específico, por tanto, es
importante manejar los datos para que se adapten a esta situación.
Fuente: DIGREH
3.6. Riesgos y contingencias
Existen varios riesgos asociados a este Proyecto de Minería de Datos, para esto se detallan considerando los planes de contingencia respectivos en la siguiente tabla:
Tabla 10. Riesgos y contingencias
RIESGO PLAN DE CONTINGENCIA
Acceso restringido a ciertos
datos del personal que
pueden ser importantes
para lograr los objetivos
Se debe realizar el acercamiento con el Director General de
Recursos Humanos actual para la autorización respectiva,
considerando que este puesto no es fijo sino que la autoridad
puede variar entre un año y dos.
Base de Datos con
información insuficiente
Buscar la información necesaria en Bases de Datos de
instituciones anexas que puedan tener los datos requeridos,
como la Dirección General de Educación u otros
31
RIESGO PLAN DE CONTINGENCIA
para lograr el objetivo de
Minería de Datos
Sistema de base de datos
de la Dirección General de
Personal sea inestable
debido a su antigüedad y
por tanto el manejo de datos
sea riesgoso.
Se considerará la implementación de una estación adicional (si es
requerido) que maneje los datos en forma paralela y con las
debidas seguridades para evitar daños en la base de datos
principal o exportar los datos requeridos para no trabajar
directamente sobre los servidores; además se considerará
realizar los ajustes requeridos al sistema de hardware de la
estación de servidores para esta implementación de ser
necesario.
La estructura de datos sea
diversa y se dificulte la
compilación de datos de la
base de datos principal
Se debe realizar la implementación de ajustes a los datos y
metadatos para organizar la información y permitir su
manipulación y exportación de forma adecuada.
Dentro de la estructura de
los datos no exista los datos
o tablas necesarias para un
análisis adecuado de lo que
se intenta implementar.
Se deberá realizar la búsqueda de la información, verificando
donde se encuentran los datos importantes para exportarla e
implementarla dentro de las condiciones de selección de
personal.
Fuente: DIGREH
3.7. Terminología
La siguiente tabla, muestra los términos que van a servir para la comprensión del proyecto:
Tabla 11. Términos y su significado
TÉRMINO SIGNIFICADO
Antigüedad Es el establecimiento del nivel de desempeño de cada militar en relación a
su promoción y en relación al tiempo de servicio en relación a otras
promociones.
CETEIN Acrónimo de Centro de Tecnologías de la Información
Candidato Oficial o Tripulante que debe ser considerado (o aspira) para un curso, ya
sea obligatorio u opcional (debe distinguirse de la persona que va a
ingresar a las escuelas de formación que se llaman “aspirantes”)
Conducta Condición del personal militar en que se debe adecuar su comportamiento
en base a las normas militares, culturales y de sociedad para el beneficio
común; esta condición es evaluable.
32
TÉRMINO SIGNIFICADO
Cursos de
Formación
Son los cursos en donde se preparan a los nuevos ciudadanos que
ingresan a las Escuelas Superior Naval y de Grumetes para formarlos
como Oficiales o Tripulantes de la Armada del Ecuador
Cursos de
Perfeccionamiento
Son los cursos en donde se preparan a los Oficiales y Tripulantes ya
graduados para que adquieran especialidades profesionales que les
permitan desempeñarse en su carrera naval.
Encomios Son recompensas dadas al personal militar por acciones meritorios en
diferentes campos
DIGREH Dirección General de Recursos Humanos de la Armada del Ecuador
Promoción Es el grupo de Oficiales o Tripulantes que se graduaron en un mismo año
en las Escuelas de Formación
Reclutamiento Proceso por el cual se promueve a las personas externas y/o internas de
una institución a formar parte de esta o de cursos, comisiones, trabajos etc,
para integrar dicha institución en beneficio de la gestión de esta.
Sanciones Son los castigos impuestos al personal militar por el incumplimiento del
Reglamento de Disciplina, que es registrado en su libreta de vida naval.
Fuente: DIGREH
3.8. Costos y beneficios
De acuerdo a la infraestructura existente en la Dirección General de Recursos Humanos, se tienen los siguientes costos estimados relacionados al proyecto:
Los costos estimados para este proyecto se indican en la siguiente tabla:
Tabla 12. Costos estimados del proyecto
No ÍTEM UNIDAD CANTI
DAD
VALOR
UNITARIO
VALOR
TOTAL SITUACIÓN
1 Adecuación de
los servidores
General 1 $200,00 $200,00 Se requiere adecuación de
servidores para poder trabajar
con los datos (solo si es
requerida)
2 Implementación
de una estación
de trabajo
General 1 $700,00 $700,00 Computadora a instalarse de
forma temporal mientras se
manejan los datos (Adquisición
solo si es requerida)
3 Implementación
del algoritmo
General 1 $50,00 $50,00 Valor estimado, solo relacionado
a material adicional requerido
33
No ÍTEM UNIDAD CANTI
DAD
VALOR
UNITARIO
VALOR
TOTAL SITUACIÓN
(memoria externa, CD-RW o
similar solo si es requerido)
4 Gastos
asociados al
proceso (gastos
administrativos)
General 1 $200,00 $200,00 Si es requerido
5 Entrenamiento Curso 2 $0,00 $0,00 Cursos a ser dados al personal
que administrará el sistema
6 Programa de
selección
General 1 $0,00 $0,00 Implementación de la búsqueda
de información sobre perfiles
TOTAL $1150,00
Fuente: DIGREH
De acuerdo a los costos considerados para este proyecto, se establece el siguiente cuadro de costo – beneficio:
Tabla 13. Costo – Beneficio del Proyecto
No ÍTEM COSTO BENEFICIO
1 Adecuación de los
servidores
$200,00 Facilidad de acceso a la información de los
servidores sin afectar su funcionamiento
normal.
2 Implementación de
una estación de
trabajo
$700,00 Poder realizar pruebas en base directamente
conectado a la base de datos, al no ser
necesario llevarse el equipo hasta el fin del
proyecto, se aumenta la seguridad del manejo
de los datos.
3 Implementación del
algoritmo
$50,00 Tener la disponibilidad de manejar en forma
aislada ciertos datos que sean requeridos
4 Gastos asociados al
proceso (gastos
administrativos)
$200,00 Utilizar para gastos varios administrativos o no
considerados.
5 Entrenamiento $0,00 Capacitación adecuada al personal de la
DIGREH que manejará el sistema.
34
No ÍTEM COSTO BENEFICIO
6 Proceso de selección $0,00 El sistema permitirá a la Armada del Ecuador,
tener una evaluación adecuada del personal
que van a ser seleccionados para los cursos de
perfeccionamiento, evitando la deserción y
mejorando su desempeño profesional.
TOTAL $1.150,00
Fuente: DIGREH
3.9. Objetivos y Criterios de éxito de minería de datos
3.9.1. Determinación de los objetivos de la minería de datos
Para lograr determinar los factores comunes que se presentan en la selección de personal para
cada una de las especialidades de Superficie, Submarinos, Aviación Naval, Infantería de Marina e
Inteligencia, se establece el siguiente objetivo:
Determinar los valores de los parámetros relacionados a las rutas de clasificación encontradas por
el algoritmo dentro de la clasificación de las cinco especialidades consideradas, de acuerdo al
método del árbol de decisión utilizado y que logre una clasificación con el menor error determinable.
Derivado de este objetivo principal, se deben considerar dos divisiones para la aplicación futura de
la selección:
1. Estimar en cada grupo de Oficiales y Tripulantes que van a iniciar cursos de
perfeccionamiento las personas que tengan el mejor perfil para cada una de las
especialidades consideradas.
2. Estimar de todo el grupo de Oficiales y Tripulantes de una determinada promoción, quienes
tienen el mejor perfil para la especialidad de Inteligencia.
Esta división es necesaria ya que debe indicarse que el segundo punto está relacionado
únicamente a la especialidad de inteligencia, que es la única que pueden optar todos los Oficiales
y Tripulantes independiente de su formación en la Escuela Superior Naval o de Grumetes.
3.9.2. Criterios de éxito de la minería de datos
Los criterios de éxito para este proyecto son los siguientes:
1. Cuando se aplique el modelo a una población candidata que requiera su clasificación para los
cursos, esta clasificación este acorde a lo previsto por el modelo en un porcentaje lo más alto
posible.
2. Que los resultados arrojados por el modelo sean comprensibles y fáciles de manejar e
interpretar por el usuario del sistema.
35
3.10. Plan del proyecto
Tabla 14. Plan del Proyecto con recursos, entradas, salidas y dependencia
No ETAPA DURACIÓN DETALLE RECURSOS
REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA
1 Análisis de los datos de la Base de Datos
10 horas Revisión de la base de datos junto a los servidores de la DIGREH
Información de los tipos de datos disponibles en la BD
Todos los tipos de datos de la BD de personal
Comprensión de los datos
Instalación del sistema en el sector
2 Selección de los datos relevantes
20 horas Escoger los tipos de datos que serán requeridos para el análisis de la Minería de Datos
Información detallada de los tipos de datos de la BD
Todos los tipos de datos de la BD de personal
Selección de los datos
Disponer de la información detallada
3 Selección inicial de herramientas y técnicas
5 horas Escoger la técnica de Minería de Datos y sus herramientas asociadas
Disponibilidad de técnicas de Minería de Datos y sus herramientas
Datos seleccionados para Minería de Datos
Seleccionar la técnica y herramienta más adecuada
Datos seleccionados sean adecuados
4 Revisión y estructuración de los datos relevantes
10 horas Verificar formato y compatibilidad de los datos, datos faltantes en base a la técnica seleccionada.
Acceso completo a la estructura de los datos
Datos, técnica y herramientas seleccionadas
Estado de los datos (formato, compatibilidad y faltantes)
Datos seleccionados deben permitir su modificación
5 Soluciones de estructura de la base de datos
10 horas Solucionar problemas de estructura o datos faltantes en la BD
Acceso completo a la estructura de los datos
Estado de los datos a utilizar
Datos estructurados y completos
Capacidad de realizar la modificación y completamiento de datos
36
No ETAPA DURACIÓN DETALLE RECURSOS
REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA
6 Desarrollo del modelo
20 horas Configurar el modelo de Minería de Datos a aplicar en la BD
Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.
Datos estructurados y completos, técnica y herramientas seleccionadas
Modelo inicial de Minería de Datos a aplicar en la BD
Modelo compatible con la estructura de la BD
7 Prueba inicial de modelo
10 horas Aplicar el modelo en la BD y observar los resultados obtenidos inicialmente hasta verificar funcionamiento.
Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.
Modelo inicial de Minería de Datos
Resultados obtenidos en la prueba inicial
Modelo desarrollado debe ser aplicable a la Base de Datos en sitio.
8 Ajustes del modelo y/o base de datos
15 horas Realizar los ajustes al modelo o la base de datos para que los resultados sean los esperados (es necesario realizar otras pruebas hasta terminar los ajustes)
Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.
Resultados obtenidos en la prueba inicial al aplicar el modelo
Modelo y/o base de datos ajustado para optimizar resultados esperados
Posibilidad de realizar varias pruebas adicionales para verificar las soluciones
9 Prueba del modelo 5 horas Se realiza la prueba definitiva del modelo con la presencia de la autoridad relacionada
Acceso completo a la estructura de los datos y aplicabilidad en sitio del modelo considerado.
Modelo y/o base de datos ajustado (revisión final)
Modelo probado formalmente ante la autoridad competente
Posibilidad de realizar prueba final para verificar su funcionalidad
37
No ETAPA DURACIÓN DETALLE RECURSOS
REQUERIDOS ENTRADAS SALIDAS DEPENDENCIA
10 Evaluación del modelo
10 horas Se realiza la evaluación de los resultados arrojados por el modelo y se comparan con los resultados esperados.
Modelo y Base de Datos final
Modelo y base de datos final
Evaluación final del sistema
Modelo probado satisfactoriamente
11 Instrucción 6 horas Se imparte la instrucción de operación de la aplicación al personal encargado de manejar la Base de Datos y del sistema de selección de personal.
Documentos del sistema y evaluación disponibles
Evaluación y funciones del sistema; usuarios del sistema
Usuarios del sistema capacitados en el uso de la aplicación de Minería de Datos
Modelo probado satisfactoriamente y material de instrucción disponible
Fuente: Desarrollo del autor
38
Tabla 15. Plan del Proyecto con riesgos, dependencias y acciones a tomar
No ETAPA DURACIÓN
SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO
ACCIONES A TOMAR
1 Análisis de los datos de la Base de Datos
10 horas
Comprensión de los datos
Acceso restringido a ciertos datos del personal que pueden ser importantes para lograr los objetivos
Instalación del sistema en el sector debe ser coordinada con la autoridad respectiva.
Realizar el acercamiento con el Director General de Recursos Humanos para continuar con la autorización del uso de los datos e instalar el equipo de ser necesario
2 Selección de los datos relevantes
20 horas
Selección de los datos
Base de Datos con información insuficiente para lograr el objetivo de Minería de Datos
Disponer de la información detallada, que debe encontrarse en la base de datos principal o relacionada (solo si es requerido, puede aumentar el tiempo necesario)
Buscar la información necesaria en Bases de Datos de instituciones anexas que puedan tener los datos requeridos como la Dirección General de Educación, Registro Civil, Ministerio de Educación, etc. (solo si es requerido)
3 Selección inicial de herramientas y técnicas
5 horas
Seleccionar la técnica y herramienta más adecuada
Depende del programador
Datos seleccionados sean adecuados
Verificar de existir contingencias no previstas
4 Revisión y estructuración de los datos relevantes
15 horas
Estado de los datos (formato, compatibilidad y faltantes)
Sistema de base de datos de la Dirección General de Personal sea inestable debido a su antigüedad y por tanto el manejo de datos sea riesgoso.
Datos seleccionados deben permitir su modificación sin afectar a la base de datos principal (puede aumentar el tiempo requerido)
Implementar de una estación adicional que maneje los datos en forma paralela y con las debidas seguridades para evitar daños en la base de datos principal, y realizar los ajustes requeridos al sistema de hardware de la
39
No ETAPA DURACIÓN
SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO
ACCIONES A TOMAR
estación de servidores para esta implementación (si es requerido)
5 Soluciones de estructura de la base de datos
15 horas
Datos estructurados y completos
La estructura de datos sea diversa y se dificulte la compilación de datos de la base de datos principal
Capacidad de realizar la modificación y completamiento de datos (dependiendo de la complejidad de los problemas podría ser necesario más tiempo)
Se debe ajustar los datos y metadatos para organizar la información y permitir su manipulación de forma adecuada.
6 Desarrollo del modelo
20 horas
Modelo inicial de Minería de Datos a aplicar en la BD
Dentro de la estructura de los datos no exista los datos o tablas necesarias para un análisis adecuado de lo que se intenta implementar.
Se debe verificar que el modelo sea compatible y adaptable a la Base de Datos.
Realizar la implementación delos datos para la estructura, verificando donde se encuentra la información para implementarla dentro del programa de verificación de los perfiles.
7 Prueba inicial de modelo
10 horas
Resultados obtenidos en la prueba inicial
Dependiendo de la prueba
Modelo desarrollado debe ser aplicable a la Base de Datos en sitio.
Verificar de existir contingencias no previstas
8 Ajustes del modelo y/o base de datos
15 horas
Modelo y/o base de datos ajustado para optimizar resultados esperados
Dependiendo de la prueba
Posibilidad de realizar varias pruebas adicionales para verificar las soluciones
Verificar de existir contingencias no previstas
9 Prueba del modelo
5 horas
Modelo probado formalmente ante
N/A Posibilidad de realizar prueba final para verificar su funcionalidad
N/A
40
No ETAPA DURACIÓN
SALIDAS RIESGOS DEPENDENCIA EN FUNCIÓN DEL RIESGO
ACCIONES A TOMAR
la autoridad competente
10 Evaluación del modelo
10 horas
Evaluación final del sistema
N/A Modelo probado satisfactoriamente
N/A
11 Instrucción 6 horas
Usuarios del sistema capacitados en el uso de la aplicación de Minería de Datos
N/A Modelo probado satisfactoriamente y material de instrucción disponible
N/A
Fuente: DIGREH y Desarrollo del autor
41
3.11. Evaluación inicial de herramientas y técnicas
La lista de criterios de selección para herramientas y técnicas es:
1. Dentro de las entradas se debe considerar el factor histórico del personal previamente
graduado para que ingrese como la base para que el método seleccionado de Minería de
datos determine los porcentajes óptimos de cada grupo de datos del personal.
2. Las herramientas y técnicas deben permitir que se clasifique al personal de Oficiales y
Tripulantes que van a ingresar a los cursos de acuerdo a las tendencias encontradas y
determinar los mejores candidatos para cada especialidad.
3. Las herramientas y técnicas deben permitir que una vez finalizados los cursos y evaluado el
personal de alumnos, estos datos sirvan de retroalimentación al modelo para optimizarlo.
De acuerdo al análisis inicial realizado, vamos a exponer las motivaciones para apoyar la
herramienta seleccionada:
Arboles de Decisión
De acuerdo a lo previamente analizado en el capítulo 1, la ventaja de usar un árbol de decisión es
que su manejo es relativamente simple, pero se debe tener cuidado, en no complicar demasiado
la estructura de la clasificación ya que esto puede generar árboles de decisión difíciles de aplicar
en forma práctica.
Dadas las características del objetivo buscado, en que se debe clasificar los datos seleccionados
en base a los perfiles requeridos, se considera que la mejor herramienta de Minería de Datos para
este proyecto es el árbol de decisión, por lo que la investigación del caso se realizará tomando en
cuenta esta herramienta y desarrollando un algoritmo basado en su metodología.
42
4. FASE II: COMPRENSIÓN DE DATOS
43
4.1. Recolección de datos iniciales
El sistema de datos está estructurado en SQL Server, un ejemplo de la estructura de las tablas de
la Base de Datos principal se muestra en el siguiente gráfico:
Figura 10. Ejemplo de estructura de las tablas de la Base de Datos Principal
Fuente: CETEIN (DIGREH)
En este caso, se muestra la estructura de la tabla principal llamada “persona” en donde se
encuentra la información completa de cada Oficial y Tripulante.
44
La forma de estructurar las tablas se realiza tomando la tabla “Persona” como principal y de ella se
deriva la Tabla de detalle con la que se quiere guardar la información laboral o familiar, en la figura
de ejemplo se muestra la relación con las tablas asociadas a las faltas (Falta_Sancion).
La mayor parte de las tablas de la base de datos principal tienen este esquema; el código de
persona se traslada a las tablas de detalle cuando es requerido.
Existen otras estructuras de tablas que por su función, se estructura aparte de la tabla principal,
pero que no es necesario vincularlas por lo particular de su creación; un ejemplo de estas tablas
son las Resoluciones de los Consejos, que se particulariza para cada trámite solicitado al consejo.
La tabla “Persona” contiene información general sobre identificación, grado militar, entre otra
información importante. Las tablas principales relacionadas a la tabla principal de “Persona” se
refieren a:
Sanciones (mencionada en el ejemplo)
Méritos (condecoraciones, encomios, felicitaciones etc.)
Trasbordos (repartos en donde se ha encontrado laborando)
Cursos (nombre del curso, fechas de inicio y fin, nota promedio etc.)
Tiempo de servicio
Comisiones cumplidas
Licencias y Permisos
Cada una de estas tablas, tienen a su vez tablas de clases en donde se detallan los puntos que
deben cumplir para poder ingresar los datos a los operadores de la base de datos.
En la siguiente tabla se muestra todos los datos utilizados en el sistema de personal y los tipos de
datos generales utilizados:
Tabla 16. Estructura general de los datos de personal utilizado en la DIGREH
ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS
DATOS PRINCIPALES GRADO Texto APELLIDOS Y NOMBRES: Cadena CEDULA: Numérico (int) SEXO Booleano GRUPO ESPECIALIDAD: Texto PERFECCIONAMIENTO: Texto DIPLOMADO: Cadena LUGAR DE NACIMIENTO: Texto FECHA DE NACIMIENTO: Fecha FECHA DE INGRESO: Fecha FECHA DE GRADUACIÓN: Fecha TIEMPO EN LA INSTITUCIÓN: Fecha TIEMPO DE SERVICIO : Fecha ESTADO CIVIL: Texto PROMOCIÓN: Numérico (int) TIPO DE SANGRE : Texto ASCENSOS: FECHA DE ASCENSO Fecha GRADO CALIFIC. Cadena PROMEDIO Numérico (float) PUNTAJE Numérico (float)
45
ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS
REFERENCIA Cadena CALIFICACIONES ANUALES: FECHA DESDE Fecha FECHA HASTA Fecha CALIFICACIÓN Texto LISTA Numérico (int) REPARTO Texto RECOMPENSAS O CONDECORACIONES:
FECHA CONCESIÓN Fecha
PAÍS Texto TIPO DE RECOMPENSA O
CONDECORACIÓN Cadena
DOCUMENTO DE REFERENCIA Cadena OTORGADA POR Cadena CURSOS: PAÍS Texto TIPO DE CURSO Cadena FECHA INICIO Fecha FECHA FIN Fecha CALIFICACIÓN Numérico (float) ANTIGÜEDAD ARMADA Numérico (int) BONIFICA SI/NO Booleano CUOTA DE ELIMINACIÓN Booleano EXONERADO Booleano TIEMPO Numérico (int) VALOR Numérico (float) PERDIDA DE CURSO Booleano PROFESORADO: FECHA INICIO Fecha FECHA FIN Fecha HORAS DICTADAS Numérico (int) CURSO Cadena MATERIA DICTADA Cadena REFERENCIA Cadena SALIDAS AL EXTERIOR: CAUSA DE SALIDA Cadena PAÍS Texto DMA SALIDA Fecha DMA RETORNO Fecha TIEMPO Fecha TRANSBORDOS: PASE Texto FECHA DESDE Fecha FECHA HASTA Fecha INSUBSISTENCIA Booleano PRESTACIÓN SERVICIOS Booleano PLAZA Texto CARGO Cadena ESPECIALIDAD: FORMACIÓN Texto F. ASIGNACIÓN Fecha DIPLOMADO Texto F. ASIGNACIÓN Fecha PERFECCIONAMIENTO Texto F. ASIGNACIÓN Fecha INSTRUCCIÓN ACADÉMICA: TITULO Cadena ACORDE Cadena INFORME Cadena FECHA Fecha FALTAS Y SANCIONES: GRADO Texto F. FALTA Fecha FALTA Cadena TIPO Texto SANCIÓN Cadena DÍAS Numérico (int) DOCUMENTO DE REFERENCIA Cadena CÓNYUGE: CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena FECHA DE NACIMIENTO Fecha NACIONALIDAD Texto MIEMBRO DE LA ARMADA Booleano
46
ESTRUCTURA DATOS SECUNDARIOS TIPO DE DATOS
ESTADO CIVIL Texto SUBSIDIO Booleano VIVE Booleano HIJOS: FECHA DE NACIMIENTO Fecha CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena SEXO Booleano ESTADO CIVIL Texto SUBSIDIO COBRA Booleano VIVE Booleano PADRES: PADRE / MADRE Booleano CEDULA Numérico (int) APELLIDOS Y NOMBRES Cadena NACIONALIDAD Texto FECHA DE NACIMIENTO Fecha VIVE Booleano LICENCIAS Y PERMISOS CAUSA DEL PERMISO Cadena FECHA INICIO Fecha FECHA FIN Fecha CON SUSPENSIÓN Booleano DÍAS Numérico (int) DOCUMENTO DE REFERENCIA Cadena TIEMPO TOTAL OPERATIVO: REPARTO Texto AÑO Numérico (int) DÍAS EN LA MAR Numérico (int) DÍAS EN EL TERRENO Numérico (int) HORAS DE VUELO Numérico (float) HORAS DE INTELIGENCIA Numérico (float) UNIDADES OPERATIVAS Texto TIEMPO TOTAL Numérico (int / float)
Fuente: CETEIN (DIGREH)
Esta base de datos es la principal a analizar para recolectar los datos necesarios, también se
utilizarán (de ser necesario) datos de otras bases de datos que se encuentran en los otros
servidores, pero que al final concluyen en el mismo Sistema de Gestión de Personal de la DIGREH.
4.2. Informe de colección de datos iniciales
4.2.1. Contexto
Los datos recolectados provienen de la base de datos principal con todas sus tablas relacionadas;
debido a que la colección de datos se debe realizar de esta base de datos con diferentes tablas y
de otras bases de datos, la forma de extraer la información debe ser hecha en forma manual,
realizando en forma general, el siguiente procedimiento:
1. Selección del personal que va a integrar el estudio.
2. Tabulación de los códigos de cada uno de los seleccionados.
3. Selección de los atributos de la información del personal que es relevante para el estudio.
4. Consultas realizadas de acuerdo a los códigos para obtener la información requerida.
5. Integración de la información obtenida y migración hacia tablas de Microsoft Excel.
47
4.2.2. Criterios de Selección
Para los criterios de selección de los datos, en base a las consideraciones del objetivo de minería
de datos se muestran en la siguiente tabla:
Tabla 17. Criterios de Selección de Datos (indicadores)
No CRITERIO DE SELECCIÓN DETALLE
01 Logros académicos Los logros académicos dan la pauta para evaluar el
mejor desempeño de cada persona considerada en el
estudio.
02 Logros de gestión En cada especialidad, verificar que personas han
logrado una gestión adecuada.
03 Logros de comportamiento Se verifica el personal que ha tenido menos problemas
de comportamiento dentro de su especialidad.
04 Capacidad de permanencia en
su especialidad
Esto da la pauta del personal que ha tenido mayor
tiempo de permanencia en su especialidad.
Fuente: DIGREH
Estos criterios nos darán la pauta para ver al personal con el mejor desempeño, para lograr
determinar los patrones adecuados para las futuras selecciones de personal.
4.2.3. Lista de Fuentes de Datos
En el siguiente cuadro se muestra la lista de fuente de datos considerado para este análisis y su
método de extracción:
Tabla 18. Fuentes de datos y su método de extracción
No FUENTES DE DATOS MÉTODO DE EXTRACCIÓN
01 Módulo de Datos de Personal Consultas en SQL, de este módulo se extrajo la información
de grado, nombres y apellidos, cédula y su código
relacionado.
02 Módulo de Sistema de Evaluación Consultas en SQL, de este módulo se extrajo la información
de notas de graduación, notas y antigüedad de los cursos de
ascenso.
03 Módulo de Evaluación Consultas en SQL, de este módulo se extrajo la información
de calificaciones anuales.
04 Módulo de Registro de Faltas y
Sanciones
Consultas en SQL, de este módulo se extrajo los días de
arresto por sanciones cumplidas.
05 Módulo de Registro de Tiempo de
Servicio y Recompensas
Consultas en SQL, de este módulo se extrajo el tiempo de
servicio de cada persona considerada.
Fuente: CETEIN (DIGREH)
48
En los cinco casos indicados, fue necesario realizar la exportación a tablas de Excel, pero son
datos con algunos problemas de normalización, los que deberán ser corregidos posteriormente.
4.3. Informe de descripción de datos
Los tipos de datos seleccionados y la información relacionada a ellos, se muestra en la siguiente
tabla:
Tabla 19. Descripción de datos a seleccionar
No TIPO DE DATO
SELECCIONADO FORMATO
CANTI
DAD DESCRIPCIÓN
01 Código de registro Numérico
entero
100 Corresponde al registro de cada persona
seleccionada; se determina escoger una
población de 100 personas.
02 Nota de
Graduación
Numérico
con
decimales
100 Esta es la información base para determinar
el inicio del desempeño del personal, tanto
registro de oficiales como de tripulantes; es
un solo dato por persona.
03 Nota de Curso de
Perfeccionamiento
inicial
Numérico
con
decimales
100 En este caso, se ha considerado la
obtención del primer curso realizado apenas
el personal de oficiales y tripulantes está
graduado, como medida de desempeño
profesional; se obtiene una nota por
persona.
04 Antigüedad de
Curso de
Perfeccionamiento
inicial
Numérico
entero
100 La antigüedad establece el parámetro de
comparación dentro de cada promoción o
curso del personal seleccionado; se obtiene
un dato de antigüedad por persona.
05 Nota de Curso de
Especialidad
Numérico
con
decimales
100 La nota obtenida en el curso de especialidad
nos dará la pauta de su desempeño dentro
de la especialidad; es un solo dato por
persona.
06 Antigüedad de
Curso de
Especialidad
Numérico
entero
100 La antigüedad establece la posición de
desempeño dentro de su promoción o
curso; es un solo dato por persona.
07 Nota de Curso de
Ascenso a Grado
Superior
Numérico
con
decimales
100 La nota obtenida en el curso de Ascenso a
Grados Superiores da una pauta de
49
No TIPO DE DATO
SELECCIONADO FORMATO
CANTI
DAD DESCRIPCIÓN
desempeño dentro de la especialidad; es un
solo dato por persona.
08 Antigüedad de
Curso de Ascenso
a Grado Superior
Numérico
entero
100 La antigüedad establece la posición de
desempeño dentro de su curso; es un solo
dato por persona.
09 Calificaciones
Anuales
Numérico
con
decimales
400 Las calificaciones anuales son un parámetro
adecuado para el desempeño profesional
por mostrar los resultados obtenidos por el
personal durante un año. Se han
considerado cuatro años para la obtención
de los datos, en total 4 datos de calificación
por persona.
Estos datos tienen el problema que
corresponde a calificaciones por semestre,
es decir dos por año, por lo que se deberá
compilarlos.
10 Días de Arresto Numérico
entero
100 Los días de arresto nos muestran la
predisposición del personal a cumplir las
normas, reglamentos y ser eficientes en su
desempeño, a menor días de arresto, mejor
consideración en este aspecto; los datos se
acumulan y se suman en un valor total.
11 Tiempo de
servicio
Numérico
con
decimales
100 El tiempo de servicio nos da la pauta del
desempeño del personal en su
especialidad, ya que el personal con mejor
desempeño permanece en su área mucho
más tiempo que los de desempeño pobre o
deficiente; se considera un valor total de
tiempo en días y un solo dato por persona;
existe el problema de no ser el mismo tipo
de parámetro, por lo que se deberá
normalizar.
Fuente: CETEIN (DIGREH)
50
Todos estos datos serán organizados dentro del algoritmo de árbol de decisión para obtener los
parámetros adecuados para la selección de personal en las diferentes especialidades.
No se consideraron datos con entradas de texto, salvo para la asociación de datos entre los datos
del personal y su código de registro.
4.4. Informe de exploración de datos
La exploración de los datos se vuelve una tarea compleja en cuanto al registro de personal se
refiere, por las siguientes razones:
Los datos históricos cambian de acuerdo a las nuevas políticas o reglamentaciones
existentes sobre manejo de personal, por ejemplo, hace más de diez años, las
calificaciones eran anuales, pero ahora las calificaciones son semestrales, por lo que se
debe normalizar estos datos.
Otros datos tampoco están normalizados, para un parámetro similar, existe datos con
consideraciones distintas, por ejemplo, el tiempo de servicio se mide por los años, meses
y días que el personal ha permanecido en los repartos operativos, sin embargo, para la
aviación naval el factor determinante no es permanecer en el reparto operativo, sino la
cantidad de horas de vuelo que se mantienen, por lo que se debe normalizar los datos para
igualar la evaluación.
La información a veces es susceptible de confusión, un curso de ascenso a través del
tiempo cambia de nombre, por lo que se debe buscar en diferentes códigos asignados a
los cursos para establecer el valor que realmente corresponde a un curso, sobre todo en
los cursos de ascenso, por ejemplo, hace muchos años el primer curso de ascenso de
tripulantes se denominaba curso Clase A, pero ahora se llama simplemente Curso de
Ascenso a Cabo Segundo, pero los códigos y las notas se almacenan en las tablas con los
nombres que fueron utilizados.
Los datos por tanto tienen que ser normalizados y posteriormente formateados y completarlos, de
forma de obtener una base de datos filtrada que nos permita realizar el análisis para el desarrollo
del árbol de decisión.
4.5. Informe de calidad de datos
Durante el proceso de análisis de los datos, se encontraron los siguientes problemas de calidad,
que se muestran en la siguiente tabla:
51
Tabla 20. Calidad de los datos
No DATOS
RELACIONADOS ESTADO / PROBLEMAS DE CALIDAD POSIBLE SOLUCIÓN
01 Nota de
Graduación
Este es un dato común y estándar para todos,
valor con decimales, no presenta problemas.
N/A
02 Nota de Cursos Se ha escogido tres cursos: De perfeccionamiento
inicial, curso de especialidad y de ascenso al
grado superior (Capitanes de Fragata y Suboficial)
a) Curso de
Perfeccionam
iento inicial
Consta del curso de especialidad, requisito para el
ascenso al primer grado; en este dato varía el
curso entre oficiales y tripulantes y el tiempo del
curso, sin embargo, se puede considerar un dato
estándar; se presentó el problema que a través del
tiempo el curso ha cambiado de nombre.
Se tiene que realizar
varias consultas para
obtener todos los datos
que correspondan a
este curso.
b) Curso de
Especialidad
Este curso es común para todos, sin embargo,
varía el nombre de acuerdo a la especialidad ya
sea para oficiales o tripulantes. También se
presenta la situación, en que un oficial o tripulante
siguió el curso pero no lo pudo culminar, teniendo
que ingresar en otra especialidad, esta situación
se refleja en los datos consultados.
Se debe realizar un
filtrado y varias
búsquedas para
determinar la nota del
curso de especialidad y
la antigüedad obtenida.
c) Curso de
Ascenso a
grados
superiores
Para Oficiales es el Curso de Estado Mayor, para
Tripulantes es el Curso de Mando y Liderazgo,
curso que no necesariamente hace toda la
promoción sino que a veces lo realizan en otro año
distinto. Estos valores no representan una
verdadera medida de análisis para nuestro caso,
debido a que los candidatos en el momento de ser
evaluados no han tomado este curso, sin
embargo, es una buena medida del esfuerzo
demostrado por la población seleccionada para el
estudio.
Se presentaron problemas de personal que no
aprobó el curso y tuvo que repetirlo en otro año.
Se debe realizar varias
búsquedas para verificar
la información (por que
no siempre todos hacen
el mismo año a pesar de
ser un curso de
promoción) y buscar
quienes no han
aprobado y tuvieron que
repetir el curso.
03 Antigüedad de
Cursos
Salvo en el curso de perfeccionamiento inicial, los
otros cursos por lo general se realizan en conjunto
con otras promociones, por lo que las
En algunos cursos el
dato parece ser el
mismo, pero esto no es
52
No DATOS
RELACIONADOS ESTADO / PROBLEMAS DE CALIDAD POSIBLE SOLUCIÓN
antigüedades varían dentro de una sola
promoción, sin embargo, son un buen indicativo
del esfuerzo individual dentro del curso.
problema ya que no
realizaron el curso en el
mismo año.
04 Calificaciones Se han considerado el promedio de calificaciones
para dos años (considerando que este también es
el número de años de los que se va a tener datos
de los candidatos el momento del análisis)
Se presentan situaciones en las que en un año
solo hay una calificación, mientras que en otros
hay dos calificaciones (semestres) y hasta tres o
cuatro (dependiendo de su traslado a más de un
reparto donde es calificado el tiempo que
permanece).
Todos los datos de un
año deben ser
promediados para
obtener el valor de la
nota anual de
calificaciones. Existen
exoneraciones de notas
que no se toman en
cuenta para el
promedio.
05 Sanciones Para este dato se han tomado en cuenta los días
totales de arresto; esto es una buena medida que
refleja el comportamiento del personal de la
muestra y servirá como base para el análisis de
este dato en el momento de realizar el análisis de
los candidatos.
Datos son valores enteros, no presentan
problemas.
N/A
06 Permanencia en
repartos operativos
Para este dato se debe tomar en cuenta las
diferencias consideradas para evaluar la
permanencia; para el personal de superficie se
toma en cuenta días de navegación, para
submarinistas se toma en cuenta también días de
navegación pero igualmente horas de inmersión,
para Infantes de Marina además de los días, se
considera saltos en paracaídas, para Aviación
Naval las horas de vuelo y para Inteligencia días
de operación de inteligencia; sin embargo, se
puede estandarizar tomando en cuenta los días en
operación, independiente de lo considerado.
Datos con valores enteros, no presentan
problemas.
N/A
Fuente: Análisis del Autor
53
5. FASE III: PREPARACIÓN DE DATOS
54
5.1. Selección de datos
La tarea de seleccionar los datos está marcada por la selección de las filas (registros) y columnas
(atributos); en este trabajo, los registros corresponden al grupo seleccionado de Oficiales y
Tripulantes con historial suficiente para hacer un análisis adecuado de los datos.
Para lograr esto, se seleccionó cuatro promociones, dos de oficiales y dos de tripulantes, quienes
tienen más de 20 años de servicio en la Armada, con un total de 100 registros.
NOTA: Para cumplir con el factor de confidencialidad de los datos, establecido como requisito para acceder
a la base de datos, luego de la solicitud realizada por el suscrito con el Oficio No OF-ARE-CPCB-SS-DAC-
2015-0003-O del 14-abr-2015, se tuvo que realizar la selección del personal de las cuatro promociones,
obtener sus códigos, y una vez consultados todos los datos, trabajar exclusivamente con los registros
secuenciales asociados a los códigos, que a su vez están relacionados con las personas que pertenecen a
esas promociones, para lograr de esta forma se mantenga la confidencialidad requerida.
Los datos, una vez obtenidos y pasados a Microsoft Excel, se los tiene como tablas individuales,
como se muestra en el siguiente gráfico:
Figura 11. Muestra de obtención de datos pasados a Excel luego de consulta en SQL
Fuente: DIGREH
El proceso para la adaptación de la información consiste en revisar si existen datos válidos para
cada uno de los 100 registros, luego integrar en una sola tabla los datos revisados. Para datos
incompletos o con variaciones dudosas, se recurrió a nuevas consultas en la base de datos
principal, hasta obtener la información válida para el registro considerado.
La descripción de los datos obtenidos, se muestra en la siguiente tabla:
55
Tabla 21. Descripción de los datos
No DATOS
RELACIONADOS
NOMBRE DE LA
COLUMNA
DESCRIPCIÓN
01 Nota de Graduación NotaAscenso Nota obtenida al terminar el curso de Formación
(Escuela Naval para Oficiales y Escuela de Grumetes
para Tripulantes). Valor numérico con decimales
02 Curso de
Perfeccionamiento
inicial
CursoPerfec Curso de especialidad, uno de los requisitos para el
ascenso al primer grado, tanto para Oficiales como
Tripulantes. En Oficiales hay mayor variedad de
ejecución y requiere mayor estandarización. Valor
numérico con decimales.
03 Antigüedad del Curso
de Perfeccionamiento
inicial
AntigCursoPerfe
c
Es la antigüedad relacionada al Curso Básico de
Especialidad. Valor numérico entero.
04 Curso de Ascenso
(Especialidad)
CursoAscenso2 Este curso es el requerido para que el oficial o
tripulante pueda ascender al siguiente grado superior
y el que define su especialidad; existe bastante
variedad de ejecución y requiere mayor
estandarización. Valor numérico con decimales.
05 Antigüedad del Curso
de Ascenso
(Especialidad)
AntigCursoAsce
nso2
Es la antigüedad relacionada al Curso de
Especialidad. Valor numérico entero.
06 Curso de Ascenso a
grados superiores
CursoEMyLID Para Oficiales es el Curso de Estado Mayor, para
Tripulantes es el Curso de Mando y Liderazgo. Valor
numérico con decimales.
07 Antigüedad del Curso
de Ascenso a grados
superiores
AntigCursoEMy
LID
Es la antigüedad relacionada al Curso de Ascenso a
grados superiores. Valor numérico entero.
08 Calificaciones Calif2000 Promedio de calificaciones obtenidas durante dos
años (1999 y 2000). Valor numérico con decimales.
09 Calificaciones Calif2010 Es el promedio de las calificaciones obtenidas
durante dos años (2009 y 2010). Valor numérico con
decimales.
10 Sanciones Sanciones Es el valor total acumulado de días de arresto
obtenidos durante su carrera. Valor numérico entero.
11 Permanencia en
repartos operativos
TiempoOpe Es el valor total acumulado de días de operación en
repartos operativos, relacionados a su especialidad.
Valor numérico entero.
Fuente: DIGREH
56
5.1.1. Razonamiento para la inclusión/exclusión
Una vez revisados los datos y sus características, vamos a realizar el razonamiento para su
inclusión o exclusión para el análisis de los requisitos en base a las necesidades del trabajo, como
se muestra en la siguiente tabla:
Tabla 22. Razonamiento para la inclusión / exclusión de los campos
No DATOS
RELACIONADOS
INCLUIR /
EXCLUIR
MOTIVACIÓN
01 Nota de Graduación
(NotaAscenso)
INCLUIR Este es un dato importante para definir de acuerdo a su
nota de graduación en la Escuela de Formación, quienes
corresponden a que especialidad, nos dará una de las
pautas para la selección.
02 Curso de
Perfeccionamiento inicial
(CursoPerfec)
INCLUIR Este dato es igualmente muy importante, pero para tener
una evaluación global en cuanto a notas de cursos, todos
los datos de cursos serán promediados.
03 Antigüedad del Curso de
Perfeccionamiento inicial
(AntigCursoPerfec)
EXCLUIR Los datos de antigüedad, si bien son una buena
referencia para establecer el empeño mostrado en el
curso en relación a sus compañeros, tiene el problema
que algunos cursos, al haberse realizado en diferentes
fechas, tienen valores no distribuidos de antigüedades, lo
que solo causará ruido en el análisis final.
04 Curso de Ascenso
Especialidad
(CursoAscenso2)
INCLUIR Se incluirá en el análisis para verificar la medida de
desempeño, para tener una información global de notas
será promediado con las otras notas de los cursos
05 Antigüedad del Curso de
Ascenso Especialidad
(AntigCursoAscenso2)
EXCLUIR Se presenta el mismo problema de la distribución de los
datos, incluso en este caso, es mayor por la diversidad de
cursos y fechas, por lo que no se puede incluir esta
información.
06 Curso de Ascenso a
grados superiores
(CursoEMyLID)
INCLUIR Se incluirá en el análisis para verificar la medida de
desempeño, será promediado con las otras notas de
cursos.
07 Antigüedad del Curso de
Ascenso a grados
superiores
(AntigCursoEMyLID)
EXCLUIR Los cursos no siempre se realizan en la misma fecha, por
tanto, esta información no es adecuada para la selección.
08 Calificaciones
(Calif2000)
INCLUIR Dato importante para determinar las condiciones de
ingreso a cada especialidad de acuerdo a las
calificaciones obtenidas, será utilizado como factor de
selección referencial.
57
No DATOS
RELACIONADOS
INCLUIR /
EXCLUIR
MOTIVACIÓN
09 Calificaciones
(Calif2010)
INCLUIR Igual al dato anterior, pero deberá ser integrado con la
calificación anterior para verificar un dato porcentual de
referencia, que sirva como factor de selección referencial.
10 Sanciones (Sanciones) INCLUIR Dato importante para determinar la distribución de faltas
cometidas de acuerdo a las especialidades y determinar
un factor de selección parcial.
11 Permanencia en
repartos operativos
(TiempoOpe)
INCLUIR Sirve para determinar, de acuerdo a cada especialidad, el
porcentaje de personas que se han mantenido dentro de
la especialidad, pero no será utilizado para la selección de
candidatos.
Fuente: Análisis del Autor
5.1.2. Conclusiones de selección de datos
La clasificación de antigüedad no tiene datos normalizados y si bien son una medida de
desempeño individual en relación a su curso, la participación del personal de cada promoción no
siempre se realiza en el mismo curso, por lo que esto impide una buena evaluación de los datos y
estos valores solo van a generar ruido en el análisis.
Salvo la nota de graduación, los demás valores de notas de cursos van a ser promediados, lo que
facilitará el análisis en función de tener una nota global con la que se pueda evaluar inicialmente a
los candidatos.
Las calificaciones van a ser promediadas, consiguiendo de este modo una sola nota de
evaluaciones, que permitirá tener una aproximación global a las notas esperadas el momento de
la selección de personal.
5.2. Informe de Limpieza de datos
Los datos obtenidos de la base de datos principal y de las bases de datos relacionadas, tuvieron
ciertos problemas, por lo cual se debió tomar las siguientes acciones, detalladas en la tabla
indicada a continuación:
Tabla 23. Limpieza de los datos
No DATOS
RELACIONADOS
SITUACIÓN /
MOTIVO CAUSA ACCIÓN TOMADA
01 Nota de Graduación
(NotaAscenso)
Sin problemas Ninguna
58
No DATOS
RELACIONADOS
SITUACIÓN /
MOTIVO CAUSA ACCIÓN TOMADA
02 Curso de
Perfeccionamiento inicial
(CursoPerfec)
Sin problemas Ninguna
03 Antigüedad del Curso de
Perfeccionamiento inicial
(AntigCursoPerfec)
Excluido Datos no
normalizados,
generan ruido en el
análisis.
04 Curso de Ascenso
Especialidad
(CursoAscenso2)
Tres Oficiales sin
registro en curso
realizado
Dos oficiales perdieron
el curso de Aviación y
uno perdió el curso de
Submarinos
Se verificó el nuevo
curso realizado para
registrar la nota, en los
tres casos hicieron curso
de Superficie.
05 Antigüedad del Curso de
Ascenso Especialidad
(AntigCursoAscenso2)
Excluido Datos no
normalizados,
generan ruido en el
análisis.
06 Curso de Ascenso a
grados superiores
(CursoEMyLID)
Nota incompleta
para dos registros
(tripulantes)
Curso perdido,
tuvieron que repetir el
curso
Se verificó en el sistema
la nota correspondiente
del curso que repitieron
07 Antigüedad del Curso de
Ascenso a grados
superiores
(AntigCursoEMyLID)
Excluido Datos no
normalizados,
generan ruido en el
análisis.
08 Calificaciones
(Calif2000)
Múltiples datos en
un año (Casi todos
los registros)
Cada vez que un
Oficial o Tripulante es
trasbordado debe ser
calificado u
exonerado, lo que
genera varios datos
Se realizó un promedio
de las calificaciones
obtenidas en un año, sin
tomar en cuenta las
exoneraciones para
obtener una sola nota en
este grupo 1999 y 2000
09 Calificaciones
(Calif2010)
Múltiples datos en
un año (Casi todos
los registros)
La misma indicada
para las calificaciones
del 2000
Igualmente se realizó un
promedio para el grupo
de 2009 y 2010
10 Sanciones (Sanciones) Se consideró solo
los días
acumulados de
sanciones
No hubo problemas en
estos registros
Ninguna
59
No DATOS
RELACIONADOS
SITUACIÓN /
MOTIVO CAUSA ACCIÓN TOMADA
11 Permanencia en
repartos operativos
(TiempoOpe)
Las
consideraciones
para el registro del
tiempo varían
Se realizan
consideraciones
diferentes para cada
especialidad
Se consideró solo el
registro de los datos de
los días en operación,
independiente de las
consideraciones de
cada especialidad
Fuente: Análisis del Autor
Todas estas acciones fueron realizadas para obtener datos limpios y adecuados para su manejo
dentro del proceso de Minería de Datos.
5.3. Construir datos
No se ha considerado la construcción de datos de los registros existentes actualmente para este
proceso de Minería de Datos. Sin embargo, se debe indicar que un análisis posterior aplicado a
una muestra mayor, podría generar esta necesidad, por lo que no se debe descartar
posteriormente en el desarrollo del modelo.
5.4. Integrar datos
Es necesario realizar una integración de datos, por lo que se ha considerado realizar esta
integración de acuerdo a la siguiente tabla:
Tabla 24. Integración de los datos
INTEGRACIÓN DATOS CONSIDERADOS MOTIVO
Notas de
Curso
Las notas de los Cursos de
Perfeccionamiento Inicial,
Ascenso (Especialidad) y
Curso Superior (Estado
Mayor y Mando y Lid) se
integran en una sola nota.
Para realizar la evaluación, se debe tomar en
cuenta que al ser Oficiales y Tripulantes recién
graduados, solo se podrá contar con una sola
nota del curso previo al de especialidad, por lo
que es mejor considerar el desempeño global
en las notas como parámetro para el análisis.
Calificaciones Calificaciones de los años
del grupo 1999 y 2000 y del
grupo 2009 y 2010.
Para realizar la evaluación, se debe tomar en
cuenta que los Oficiales y Tripulantes a ser
considerados, solo tendrán una o dos
calificaciones, por lo que se considera
adecuado evaluar el desempeño global en
relación a las calificaciones para la evaluación
de los datos.
Fuente: Análisis del Autor
60
5.5. Formatear datos
Para poder utilizar la aplicación WEKA con nuestro archivo de Microsoft Excel, se deben tomar las
siguientes acciones:
Todos los registros que contengan comas, deben ser convertidas a puntos.
Todos los registros con decimales fueron aproximados a máximo cuatro cifras
significativas.
El archivo de Microsoft Excel debe ser transformado a un archivo de extensión .csv
(archivos de valores separados por comas de Microsoft Excel), extensión que puede ser
leída y tratada por WEKA para el análisis de los datos.
El archivo transformado a extensión .csv debe ser revisado en un editor de texto para
cambiar todos los (;) punto y comas por (,) comas, ya que este es el separador natural para
ser entendido por la aplicación WEKA.
61
6. FASE IV: MODELADO
62
6.1. Selección de la técnica de modelado
La selección realizada en el Estado del Arte y de Comprensión del Negocio definió a la técnica del
Árbol de Decisión como la más adecuada para realizar el trabajo de selección de personal para el
ingreso a las diferentes especialidades de la Armada, sin embargo, se debe definir la técnica más
específicamente.
6.1.1. Técnicas de modelado
De acuerdo a Vizcaíno (2008), las técnicas de modelado que se pueden aplicar en árboles de
decisión, se detallan en el siguiente cuadro:
Tabla 25. Técnicas de modelado para árboles de decisión
Técnica Significado Detalles
ADTree Alternating Decision
Tree. Método de
Clasificación
proveniente del
aprendizaje
automático, las
estructuras de datos y
el algoritmo son una
generalización de los
árboles de decisión.
Contienen nodos divisor (splitter) y nodos de predicción. El nodo
divisor está asociado a una prueba, mientras que el nodo de
predicción está asociados con una prueba.
La Clasificación es asociada con una instancia que se calcula con
la suma de las predicciones cercanas al camino en el que es
definido por esta instancia.
El algoritmo de aprendizaje para su construcción es una estrategia
Top-Down, en que cada paso de aumento es seleccionado y
adiciona una nueva regla o su equivalente a una nueva unidad
que consiste en un nodo splitter y dos nodos de predicción.
Decision
Stump
Árbol de decisión de
un nivel
Funcionan de forma aceptable en problemas de dos clases, pero
mayor a esto es muy difícil encontrar tasas de error inferiores a 0.5
El algoritmo construye un modelo de cada caso a ser clasificado
pero tomando únicamente un subconjunto de casos de
entrenamiento. Este algoritmo clasifican los casos basados en
valores característicos, cada nodo en un árbol de decisión de un
nivel representa una característica de un caso para ser clasificado,
y cada rama representa un valor que el nodo puede tomar. Los
casos son clasificados comenzando en el nodo raíz y se cataloga
basándose en sus valores característicos.
ID3 Inducción mediante
árboles de decisión
En el algoritmo ID3, cada nodo corresponde a un atributo y cada
rama al valor posible de ese atributo. Una hoja del árbol especifica
el valor esperado de la decisión de acuerdo con los ejemplos
dados.
La explicación de una determinada decisión viene dada por la
trayectoria desde la raíz a la hoja representativa de esa decisión; a
63
Técnica Significado Detalles
cada nodo es asociado aquel atributo más informativo que aún no
haya sido considerado en la trayectoria desde la raíz.
Para medir cuánto informativo es un atributo se emplea el
concepto de entropía; cuanto menor sea el valor de la entropía,
menor será la incertidumbre y más útil será el atributo para la
clasificación.
J48 Es una
implementación del
algoritmo C4.5.
Algoritmo de inducción que genera una estructura de reglas o
árbol a partir de subconjuntos (ventanas) de casos extraídos del
conjunto total de datos de entrenamiento (similar a ID3). Se
genera una estructura de reglas y se evalúa su “bondad” usando
criterios que miden la precisión en la clasificación de los casos.
Emplea dos criterios: Calcula el valor de información
proporcionada por una regla candidata (o rama del árbol) con una
rutina que se llama “info”, y calcula la mejora global que
proporciona una regla / rama usando una rutina que se llama gain
(beneficio).
Con estos criterios se puede calcular el costo / beneficio en cada
ciclo del proceso para decidir por ejemplo, si crea dos nuevas
reglas o agrupa los casos en una sola.
El algoritmo realiza el proceso de los datos en sucesivos ciclos.
En cada ciclo se incrementa el tamaño de la “ventana” de proceso
en un porcentaje determinado respecto al conjunto total, buscando
tener reglas a partir de la ventana que clasifiquen correctamente a
un número cada vez mayor de casos en el conjunto total. Cada
ciclo de proceso emplea como punto de partida los resultados
conseguidos por el ciclo anterior y en cada ciclo se ejecuta un
sub-modelo contra los casos restantes que no están incluidos en
la ventana. De esta forma se calcula la precisión del modelo
respecto a la totalidad de datos.
LMT Logistic Model Tree
Consiste en una
estructura de un árbol
de decisión con
funciones de
regresión logística en
las hojas
Se realiza una prueba sobre uno de los atributos, que es asociado
con cada nodo interno. Para enumerar los atributos con k valores,
el nodo tiene k nodos hijos, y los casos son clasificados en las k
ramas dependiendo del valor del atributo. Para atributos
numéricos, el nodo tienen dos nodos hijos y la prueba consiste en
comparar el valor del atributo con un umbral que define a qué lado
de la rama se van los datos.
M5P Árbol de regresión Es un árbol basado en árbol de decisión numérico tipo “model
tree”; tiene características como:
64
Técnica Significado Detalles
Construcción de árbol mediante algoritmo inductivo de árbol
de decisión.
Decisiones de enrutado en nodos tomadas a partir de valores
de los atributos.
Cada hoja tiene asociada una clase que permite calcular el
valor estimado de la instancia mediante una regresión lineal.
NBTree Naive Bayes Tree Algoritmo hibrido que genera un tipo de árbol de decisión, pero las
hojas contienen un clasificador Naive Bayes construido a partir de
los ejemplos que llegan al nodo.
A pesar de que es un eficiente y efectivo algoritmo de aprendizaje,
previo a los resultados muestra que su capacidad es limitada ya
que puede únicamente representar cierto grado de separación
entre las funciones binarias. Requiere suficientes condiciones es
el proceso en el dominio binario para que tenga una
representación uniforme. Se ve entonces que el aprendizaje (y los
datos de error) de Naive Bayes puede ser afectado
dramáticamente por distribuciones de muestreo.
Random
Forest
Bosque Aleatorio Utiliza vectores de entrada cuya utilización se basa en escoger el
árbol más votado del “bosque”, que a su vez utiliza árboles de
clasificación. Algunas de las características más importantes son:
Corre eficientemente sobre grandes bases de datos
Puede manejar cientos de variables de entrada sin eliminación
de otras variables, lo que da las estimaciones para saber que
variables son importantes en la clasificación.
Es un método eficaz para estimar datos perdidos y mantiene la
exactitud de cuándo una proporción grande de los datos falla.
Los árboles generados pueden ser salvados de un uso futuro
sobre otros datos.
Los prototipos son calculados ya que dan información acerca de
la relación entre las variables y las clasificaciones.
Ofrece un método experimental para detectar interacciones
entre variables.
Random
Tree
Árbol Aleatorio Un RandomTree es un árbol dibujado al azar de un juego de
árboles posibles.
En este contexto "al azar" significa que cada árbol en el juego de
árboles tiene una posibilidad igual de ser probado o que su
distribución es "uniforme"”.
65
Técnica Significado Detalles
REPTree Es un método de aprendizaje rápido mediante árboles de
decisión, que construye un árbol de decisión usando la
información de varianza y lo poda usando como criterio la
reducción del error.
Utiliza un modelo comprensible (reglas if then else).
Solamente ordena una vez los valores de los atributos numéricos.
Los valores ausentes se manejan dividiendo las instancias
correspondientes en segmentos.
User
Classifier
Su característica esencial es que permite al usuario construir su
propio árbol de decisión.
Fuente: Vizcaíno (2008)
De todos estos modelos disponibles para ser aplicados en árboles de decisión, si bien no existe
una forma de determinar el mejor algoritmo en forma general, sino que depende de cada caso y
cada objetivo de búsqueda que se requiera implementar, se ha considerado la utilización del
algoritmo J48, ya que como indican Jiménez y Álvarez (2010), este algoritmo es una mejora del
C4.5 y a su vez del ID3 y tiene una probabilidad de acierto ligeramente superior a sus anteriores,
siempre considerando que el parámetro más importante a tomar en cuenta es el factor de confianza
para la poda, aunque WEKA tenga la facultad de seleccionar en forma automática este parámetro
de modo de mejorar la capacidad de predicción del árbol construido.
6.1.2. Presunciones del modelado
Las presunciones del modelado para este proyecto se basan en los siguientes puntos:
1. Se requiere que los datos estén completos, por lo que se completó los datos de todos los
registros para realizar las pruebas en la etapa anterior.
2. Para su aplicación en árboles de decisión los datos deben ser numéricos, por lo que estos
se deben adaptar para lograr el modelado.
6.2. Generación de la prueba de diseño
La prueba de diseño para este trabajo se basa en el análisis de los datos seleccionados para el
programa WEKA y la aplicación de estos datos en los diferentes modelos de árboles de decisión
para verificar la idoneidad, sobre todo del modelo J48, que previamente habíamos seleccionado
como el más adecuado, sin embargo, con el desarrollo de las pruebas, podremos verificarlo en
forma práctica.
66
Prueba de diseño
Para la prueba de diseño, se va a tomar en cuenta las consideraciones detalladas en la siguiente
tabla:
Tabla 26. Pruebas de diseño para el modelo de Minería de Datos
PLAN
INTENCIONADO
PARA EL
ENTRENAMIENTO
PRUEBA EVALUACIÓN DE LOS MODELOS
Verificación de
aplicabilidad de los
datos con árboles
de decisión
Probar cada modelo
(algoritmo) de árboles
de decisión a la
información
seleccionada
El modelo debe tener un porcentaje de
distribución de aciertos lo más alto posible y
consecuentemente, un porcentaje de errores
en la distribución lo más bajo posible
Verificación de
aplicabilidad del
desarrollo del árbol
Para cada modelo
probar si su árbol de
decisión es construible
y aplicable
El modelo debe tener un árbol que se pueda
mostrar y por tanto, en un caso práctico, se
pueda aplicar para la selección futura.
Verificación de la
Matriz de
Confusión
Para cada modelo
verificar el estado de la
matriz de confusión
El modelo debe tener una matriz de confusión
con los datos lo más cercano posible a la
distribución verdadera de los datos.
Fuente: Análisis del Autor
6.3. Construcción del modelo
Para la construcción del modelo, se compiló la información detallada en el Anexo C “DATOS
INICIALES RECOPILADOS PARA EL TRABAJO DE MINERÍA DE DATOS” en el cual se
muestran las correcciones realizadas en la Fase de Preparación de Datos, pero previo a la
integración y formateo de datos.
Una vez realizada la integración y formateo de los datos y preparada la tabla en Microsoft Excel
para que solo quede la información necesaria para la posterior aplicación en el programa WEKA,
tenemos el siguiente cuadro de datos:
Tabla 27. Datos preparados listos para su aplicación en WEKA
Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad
18.915 19.141 19.719 6 26 SU 18.439 19.021 19.750 13 316 IM 17.930 18.675 19.927 5 374 AV 17.590 18.470 19.905 8 764 SU 17.860 18.602 19.748 25 698 AV 18.376 18.802 19.923 16 213 SU 18.400 18.554 19.860 7 648 IM
67
Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad 17.320 18.385 19.799 17 429 AV 17.931 18.688 19.574 0 313 SS 18.084 18.582 19.483 11 304 IN 18.588 18.840 19.603 5 346 SS 17.845 18.437 19.688 4 115 SU 18.152 18.626 19.768 10 510 IM 18.335 18.549 19.843 6 766 IM 17.531 18.202 19.769 14 1002 SU 17.480 18.123 19.899 10 127 AV 17.340 18.253 19.623 10 618 AV 17.832 18.317 19.766 25 766 SU 17.569 18.175 19.510 22 597 SU 18.122 18.874 19.718 3 543 AV 18.916 19.090 19.880 3 729 SS 18.308 18.852 19.850 2 1031 SU 18.461 18.894 19.841 0 338 IN 17.592 18.432 19.613 10 685 AV 17.935 18.588 19.795 4 854 SU 18.390 18.890 19.915 9 494 IM 17.948 18.600 19.498 15 252 SU 17.853 18.510 19.735 3 309 SS 18.001 18.662 19.705 4 125 SU 17.676 18.478 19.785 7 690 AV 17.625 18.490 19.312 7 79 IN 17.479 18.413 19.645 2 320 AV 18.202 18.687 19.429 25 144 IN 17.565 18.477 19.628 2 237 SS 17.886 18.394 19.543 17 1082 SU 17.800 18.498 19.625 5 296 IN 18.120 18.666 19.699 14 865 SU 18.276 18.396 19.473 64 452 IM 19.032 18.946 19.790 6 80 SU 19.039 18.012 19.677 55 214 SS 18.629 18.649 19.818 54 874 IM 18.561 17.681 19.366 71 385 SU 18.149 17.609 19.740 38 177 SU 18.241 17.486 19.730 103 550 SU 18.308 18.206 19.861 35 66 SU 18.643 18.600 19.905 16 653 IM 18.121 18.350 19.910 41 569 IM 18.175 18.159 19.636 104 241 IM 18.719 18.708 19.813 52 391 IM 18.109 18.100 19.585 189 1051 IN 17.869 17.948 19.782 69 1764 IM 18.539 18.458 19.730 77 552 IM 17.984 17.951 19.538 151 672 IM 18.721 18.127 19.840 121 213 IM 17.770 17.771 19.957 90 977 IM 18.418 18.440 19.975 8 991 IN 18.834 18.554 19.815 20 241 SU 18.133 18.131 19.777 16 581 SU 18.251 18.209 19.585 39 600 IM 18.455 18.376 19.649 32 690 SU 19.703 19.000 19.755 84 678 IM 19.054 18.889 19.376 27 366 SU
68
Nota Graduación Nota Cursos Calificaciones Sanciones DiasOpe Especialidad 17.916 17.932 19.810 33 653 IM 17.853 17.847 19.755 41 411 IM 17.843 17.822 19.493 44 63 SU 18.066 18.038 19.725 55 945 IM 18.292 18.291 19.580 24 17 SU 17.972 17.971 19.480 47 393 IM 19.021 18.733 19.765 28 207 SU 18.069 18.089 19.640 66 417 IM 17.887 17.843 19.676 36 179 IM 18.763 18.589 19.755 14 408 SU 17.212 17.237 19.593 15 180 IM 17.793 17.691 19.659 67 105 SS 18.352 17.398 19.409 25 320 SU 17.321 17.259 19.468 106 610 IN 18.329 18.298 19.630 33 401 SU 18.191 18.147 19.699 37 487 SU 18.158 18.205 19.587 76 265 SU 18.742 17.530 19.365 76 875 SU 17.984 17.881 19.657 62 66 SU 18.294 18.107 19.709 31 440 SU 18.734 18.632 19.863 24 217 SU 18.477 18.659 19.215 39 261 SU 18.423 17.638 19.811 129 694 SS 18.268 18.277 19.634 73 0 SU 18.519 18.452 19.737 29 83 SU 18.284 18.232 19.564 39 198 SU 18.348 18.144 19.545 63 12 SU 18.211 18.218 19.525 42 69 SS 19.102 19.102 19.538 59 18 AV 17.679 17.652 19.453 45 1116 SU 17.226 17.254 19.460 53 273 SU 18.363 17.107 19.478 61 305 SU 17.012 17.615 19.778 132 309 SU 18.421 16.996 19.423 53 505 SU 18.289 17.052 19.197 141 282 SU 19.640 19.452 19.660 9 732 IM 18.128 18.329 19.325 33 672 SU 19.003 18.981 19.383 26 264 SS
Fuente: CETEIN (DIGREH)
Hay que indicar que para poder aplicar esta tabla en el programa WEKA, se debió utilizar el formato
anglosajón de puntos para separar los decimales, en lugar de las comas como se utiliza en los
países latinos, dentro de la configuración de Microsoft Excel.
La última columna de la tabla, definirá el parámetro a ser clasificado, es decir la especialidad será
la parte final de cada rama del árbol, luego de que el programa WEKA, en función de la aplicación
del algoritmo, determine las rutas y parámetros calculados.
En el archivo de Microsoft Excel, como ya se había dicho, debe ser grabado con un formato que
sea reconocible para el programa WEKA (extensión csv), sin embargo, a pesar de grabar a nuestro
archivo con esta extensión, los datos no se guardan automáticamente separados por comas, ya
69
que el archivo deriva de Microsoft Excel, y permanecen separados por punto y coma, por lo que
se debe abrir este archivo en un programa de edición de texto (el más básico y útil es el block de
notas en caso de usar Windows) y realizar una búsqueda y reemplazo de los puntos y comas
solamente por comas.
Cuando se ha realizado esta transformación, el archivo está listo para ser leído por la aplicación
WEKA, solo se debe tener cuidado al abrir el archivo de cambiar la búsqueda natural de archivos
con extensión arff que significa “Attribute-Relation File Format” (Archivo de formato atributo-
relación) que son los archivos naturales de WEKA.
La Interfaz de WEKA, se muestra en la siguiente figura:
Figura 12. Interfaz inicial del programa WEKA
Fuente: Machine Learning Group at the University of Waikato
Vamos a utilizar la versión de WEKA No 3.6.12 que es la versión más estable disponible al
momento de realizar este trabajo; la forma para su instalación es acceder a la página de software
en http://www.cs.waikato.ac.nz/~ml/weka/index.html y seguir el procedimiento de instalación,
tomando en cuenta la versión requerida de la máquina virtual de java que debe estar instalada.
WEKA tiene cuatro módulos, de los cuales, vamos a utilizar para el análisis de los datos el módulo
de Exploración (Explorer), cuya interfaz se muestra en la siguiente figura:
Figura 13. Interfaz del Módulo de Exploración del programa WEKA
Fuente: Machine Learning Group at the University of Waikato
70
En la pestaña “Open file.” se procede a abrir nuestro archivo previamente preparado, teniendo la
precaución de seleccionar el tipo de archivo CSV; con esto se carga nuestro archivo y nos presenta
ya la información para ser analizada, de acuerdo al siguiente gráfico:
Gráfico No 14: Interfaz del Módulo de Exploración del programa WEKA con información
para análisis
Fuente: Machine Learning Group at the University of Waikato
En la pestaña “Classify” se puede iniciar las pruebas con los diferentes métodos, para ello se realizó
las pruebas con todos los relacionados a árboles de decisión, cada prueba queda registrada, como
se muestra en la siguiente figura:
Gráfico No 15: Interfaz del Módulo de Exploración del programa WEKA con las pruebas
realizadas para árboles de decisión
Fuente: Machine Learning Group at the University of Waikato
71
Dentro de las opciones de test para todas las pruebas de exploración de cualquiera de los procesos
de clasificación (incluidos árboles de decisión), de acuerdo a Morate (2008) y por otro lado a Césari,
tenemos los siguientes modos de evaluación del clasificador:
Tabla 28. Modos de Evaluación del Clasificador en el programa WEKA
MODO DETALLE EVALUACIÓN
USE
TRAINING SET
Se entrenará el método con todos los
datos disponibles y luego se aplicará
otra vez sobre los mismos datos.
Al ser entrenado sobre el mismo
modelo predictivo sobre el que es
construido para determinar el error,
la estimación del resultado puede
ser muy optimista
SUPPLIED
TEST SET
En esta opción se puede seleccionar
marcando el botón SET un fichero de
datos con el que se va a probar el
clasificador obtenido con el método de
clasificación usado y los datos iniciales.
Requiere de un archivo previamente
desarrollado para evaluar el
clasificador.
CROSS
VALIDATION
Se realizará una validación cruzada
estratificada del número de particiones
dado (Folds). La validación cruzada
consiste en que dado un número n se
divide los datos en n partes y con cada
parte se construye en clasificador con
las n-1 partes restantes y se prueba
con esa; de la misma forma se realiza
con cada una de las n particiones.
Es la más elaborada y costosa, los
errores se calculan del promedio de
errores de todas las n-1
evaluaciones. Nos da una buena
estimación de los aciertos y errores
del modelo considerado.
PERCENTAGE
SPLIT
Se define un porcentaje con el que se
construirá el clasificador y con la parte
restante se probará. La cantidad de
datos que se prueban depende del
valor ingresado en el campo %, que es
el porcentaje de instancias para
construir el modelo, que a continuación
es evaluado sobre las que se dejan
aparte.
Si la cantidad de instancias es
elevada con esta opción se puede
estimar con precisión las
prestaciones del clasificador, por
tanto, sería más útil en grandes
cantidades de datos.
Fuente: Machine Learning Group at the University of Waikato
72
Se realizaron las pruebas para los modelos aplicables a árboles de decisión utilizando inicialmente
“use training set” (para verificar la condición más optimista de la predicción), obteniendo los
resultados que se muestran en la siguiente tabla:
Tabla 29. Resultados de aplicación de los modelos de J48 utilizando WEKA
MODELO DE
ÁRBOL DE
DECISIÓN
PROBADO
INSTANCIAS
CORRECTA
MENTE
CLASIFICADAS
INSTANCIAS
INCORRECTAS RESULTADOS
J48 83% 17% Contiene parámetros desfasados en la
matriz de confusión, sin embargo, tiene
un porcentaje aceptable de aciertos y su
árbol está desarrollado en forma menos
compleja.
BFTree 80% 20% Mayor desfase en la matriz de
confusión, porcentajes no adecuados
(en el límite) y no muestra el desarrollo
del árbol.
DecisionStump 46% 54% Porcentajes de clasificaciones correctas
e incorrectas totalmente fuera de rango;
no se desarrolla matriz de confusión, no
adecuado para el análisis.
NBTree 46% 54% Porcentajes de clasificaciones correctas
e incorrectas totalmente fuera de rango;
no se desarrolla matriz de confusión, no
adecuado para el análisis.
RandomForest 100% 0% Presenta porcentajes de clasificación
perfectos, la matriz de confusión no
tiene parámetros fuera de rango, sin
embargo, el desarrollo de su árbol es
altamente complejo ya que evalúa todas
las rutas posibles para tener cero
errores, lo que no es de aplicación
práctica.
RandonTree 100% 0% Igual que el anterior, presenta
porcentajes de clasificación y matriz de
73
MODELO DE
ÁRBOL DE
DECISIÓN
PROBADO
INSTANCIAS
CORRECTA
MENTE
CLASIFICADAS
INSTANCIAS
INCORRECTAS RESULTADOS
confusiones perfectas, pero su árbol es
altamente complejo ya que evalúa todas
las rutas posibles para tener cero
errores, lo que no es práctico.
REPTree 72% 28% Porcentajes de clasificación fuera de
rango, la distribución en la matriz de
confusión no es adecuada para la
clasificación de Inteligencia; no
adecuada para análisis.
SimpleCart 68% 32% Porcentajes de clasificación fuera de
rango, la distribución en la matriz de
confusión está totalmente desfasada,
árbol de decisión muy básico y no
adecuado; no correcta para análisis.
UsserClassifier 46% 54% Porcentajes de clasificaciones
totalmente fuera de rango; no se
desarrolla matriz de confusión, no
adecuado para el análisis.
LMT 59% 41% Porcentajes de clasificación fuera de
rango, la distribución en la matriz de
confusión está totalmente desfasada,
no presenta forma de desarrollar el
árbol de decisión; no correcta para
análisis.
Fuente: Machine Learning Group at the University of Waikato
Del análisis de estos resultados, se puede observar que el modelo de árbol de decisión más
adecuado es J48, ya que presenta el mejor porcentaje de clasificación correcta de las instancias,
una distribución en la matriz de confusión sin desfases exagerados y su árbol de decisión no
presenta complejidades y es totalmente gestionable.
En relación a los modos de evaluación de la tabla 28, tenemos los siguientes resultados de aciertos
y errores utilizando árboles de decisión con el modelo j48:
74
Tabla 30. Aciertos y errores utilizando los modos de evaluación para árboles de decisión con el modelo j48
(valores más altos)
MODO DE EVALUACIÓN VALOR
CONSIDERADO
PORCENTAJE
DE ACIERTO
PORCENTAJE
DE ERROR
USE TRAINING SET --- 86 14
SUPPLIED TEST SET (no evaluado)
CROSS VALIDATION 10 55 45
7 63 37
3 62 38
PERCENTAGE SPLIT 66% 61,76 38,23
45% 56,36 43,63
80% 55 45
Fuente: Machine Learning Group at the University of Waikato
Como se puede observar en la tabla 29, el valor más alto corresponde a “Use Training Set” con
86% de aciertos y 14% de errores, sin embargo, esta estimación es la más optimista; por otro lado
tenemos la estimación dada por “Cross Validation” cuyo valor más alto corresponde a 7 instancias
que arrojan un 63% de aciertos y 37% de errores, mientras que la estimación dada por “Percentage
Split” indica su valor más alto en 66% que nos da 61,76% de aciertos y 38,23% de errores. Esto
nos da un promedio de 70,25% para los aciertos y de 29,75% para los errores.
Este análisis, nos da la pauta que si bien la evaluación más alta corresponde a “use training set” la
forma más apropiada es evaluarlo con un valor apropiado de instancias dentro de “Cross
Validation” para mejorar la evaluación de la construcción o estructura de nuestro modelo.
6.4. Evaluación del Modelo
6.4.1. Parámetro de ajustes
No se han considerado parámetros de ajuste para el modelo seleccionado, sin embargo, en caso
de ser requerido evaluar el modelo, se deberá tomar en cuenta utilizar la estimación dada por
“Cross Validation” para evaluar el porcentaje de aciertos y errores del modelo a ser modificado,
para determinar de la mejor manera los resultados apropiados para el modelo.
6.4.2. Modelos
Los resultados obtenidos con la Exploración en Weka, muestran los resultados mostrados en la
siguiente tabla:
75
Tabla 31. Datos de la corrida de Exploración de los datos en el programa WEKA
=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka05 Instances: 100 Attributes: 6 NotaGraduacion NotaCursos Calificaciones Sanciones DiasOpe Especialidad Test mode:evaluate on training data
=== Classifier model (full training set) === J48 pruned tree ------------------ Sanciones <= 11 | NotaGraduacion <= 18.133 | | Sanciones <= 3 | | | DiasOpe <= 316: SS (3.0) | | | DiasOpe > 316: AV (2.0) | | Sanciones > 3 | | | Sanciones <= 4: SU (3.0) | | | Sanciones > 4 | | | | NotaCursos <= 18.478: AV (5.0/1.0) | | | | NotaCursos > 18.478: IN (4.0/1.0) | NotaGraduacion > 18.133 | | Sanciones <= 5 | | | NotaGraduacion <= 18.519: SU (2.0/1.0) | | | NotaGraduacion > 18.519: SS (2.0) | | Sanciones > 5 | | | DiasOpe <= 282: SU (2.0) | | | DiasOpe > 282: IM (6.0/1.0) Sanciones > 11 | Calificaciones <= 19.468: SU (13.0/3.0) | Calificaciones > 19.468 | | Sanciones <= 38 | | | NotaCursos <= 18.012: IM (4.0/1.0) | | | NotaCursos > 18.012 | | | | NotaGraduacion <= 17.869 | | | | | NotaCursos <= 18.35: SU (3.0) | | | | | NotaCursos > 18.35: AV (2.0) | | | | NotaGraduacion > 17.869: SU (18.0/2.0) | | Sanciones > 38 | | | DiasOpe <= 346 | | | | NotaGraduacion <= 18.643: SU (11.0/3.0) | | | | NotaGraduacion > 18.643: IM (3.0/2.0) | | | DiasOpe > 346 | | | | NotaCursos <= 17.691: SU (2.0/1.0) | | | | NotaCursos > 17.691: IM (15.0/1.0) Number of Leaves : 18 Size of the tree : 35 Time taken to build model: 0.03 seconds === Evaluation on training set ===
76
=== Summary === Correctly Classified Instances 83 83 % Incorrectly Classified Instances 17 17 % Kappa statistic 0.743 Mean absolute error 0.1014 Root mean squared error 0.2251 Relative absolute error 36.2285 % Root relative squared error 60.3972 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.957 0.185 0.815 0.957 0.88 0.941 SU 0.885 0.068 0.821 0.885 0.852 0.959 IM 0.8 0.011 0.889 0.8 0.842 0.991 AV 0.5 0 1 0.5 0.667 0.961 SS 0.375 0.011 0.75 0.375 0.5 0.922 IN Weighted Avg. 0.83 0.105 0.837 0.83 0.817 0.951 === Confusion Matrix === a b c d e <-- classified as 44 1 1 0 0 | a = SU 3 23 0 0 0 | b = IM 0 1 8 0 1 | c = AV 4 1 0 5 0 | d = SS 3 2 0 0 3 | e = IN
El árbol mostrado por el programa, se muestra en el siguiente gráfico:
Gráfico No 16: Árbol de Decisión utilizando J48 para los datos analizados en WEKA
Fuente: Machine Learning Group at the University of Waikato
77
6.4.3. Descripciones del modelo
El modelo desarrollado tiene varios criterios de clasificación para cada una de las especialidades,
por lo que se va a analizar una por una y se realizará un análisis posterior en conjunto para ver las
relaciones entre ellos y determinar cómo funciona el modelo desarrollado.
SUPERFICIE
Esta especialidad es la que tiene mayor cantidad de opciones de clasificación y el que contiene
mayor profundidad en las ramas del árbol, así mismo, contiene la mayor cantidad de errores de
clasificación, como se observa en la siguiente tabla:
Tabla 32. Clasificación de la especialidad de Superficie al aplicar WEKA con árbol de decisión y modelo J48
1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL 6° NIVEL ACIERTOS ERRORES
Sanciones <= 11
NotaGraduacion <= 18.133
Sanciones > 3
Sanciones <= 4 3 0
NotaGraduacion > 18.133
Sanciones <= 5
NotaGraduacion <= 18.519
2 1
Sanciones > 5
DiasOpe <= 282 2 0
Sanciones > 11
Calificaciones <= 19.468
13 3
Calificaciones > 19.468
Sanciones <= 38
NotaCursos > 18.012
NotaGraduacion <= 17.869
NotaCursos <= 18.35
3 0
NotaGraduacion > 17.869
18 2
Sanciones > 38
DiasOpe <= 346 NotaGraduacion <= 18.643
11 3
DiasOpe > 346 NotaCursos <= 17.691
2 1
TOTAL 54 10
Fuente: Análisis del Autor
El modelo determina un total de aciertos de 54 personas, sin embargo, el número real de personas
perteneciente a esta especialidad es de 46, por lo que se puede verificar que algunas personas de
otras especialidades mantienen parámetros similares a los considerados para la especialidad de
superficie.
En las filas 1, 2 y 5 hay clasificaciones que se repiten, esto es, por existir en el árbol general otras
clasificaciones conexas para las otras especialidades, pero para nuestro análisis, las integraremos,
es decir, para la fila 1 se considera sanciones mayores a 3 y menores o iguales a 4, para la fila 2
consideramos nota de graduación mayor a 18,133 y menor o igual a 18,519 y para la fila 5
consideramos la nota de cursos mayor a 18,012 y menor o igual a 18,35
SUBMARINOS
Esta especialidad tiene poca población, por lo que es esperable más problemas de clasificación,
sin embargo, los criterios de clasificación son solo dos para esta especialidad.
Tabla 33. Clasificación de la especialidad de Submarinos al aplicar WEKA con árbol de decisión y modelo
J48
1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL ACIERTOS ERRORES
Sanciones <= 11
NotaGraduacion <= 18.133 Sanciones <= 3 DiasOpe <= 316 3 0
NotaGraduacion > 18.133 Sanciones <= 5 NotaGraduacion > 18.519 2 0
TOTAL 5 0
Fuente: Análisis del Autor
78
En este caso se lograron 5 aciertos, pero la cantidad real de personas perteneciente a esta
especialidad es de 10, por tanto es un equivalente a solo el 50% de la cantidad real, sin embargo
hay que considerar que para esta selección se contaba con muy pocos datos como para poder
realizar una mejor evaluación por parte del modelo.
Otro factor derivado de este análisis se refiere a que en la realidad, exista personal submarinista
que no se enmarca en los estándares comunes aplicados al 50% de los submarinistas que si
cumplen factores comunes, y al no haber errores de clasificación, entonces tenemos que esta
consideración es bastante cercana a la realidad.
En la fila 2 existe un factor de clasificación para la nota de graduación que se puede considerar
como solo uno para efectos de análisis, es decir la nota de graduación mayor a 18,33.
AVIACIÓN NAVAL
Esta especialidad tiene tres criterios de clasificación y su población analizada es la más cercana a
la realidad, a pesar de tener tan solo 10 registros del total de la población.
Tabla 34. Clasificación de la especialidad de Aviación Naval al aplicar WEKA con árbol de decisión y modelo
J48
1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL 6° NIVEL ACIERTOS ERRORES
Sanciones <= 11
NotaGraduacion <= 18.133
Sanciones <= 3
DiasOpe > 316
2 0
Sanciones > 3
Sanciones > 4
NotaCursos <= 18.478
5 1
Sanciones > 11
Calificaciones > 19.468
Sanciones <= 38
NotaCursos > 18.012
NotaGraduacion <= 17.869
NotaCursos > 18.35
2 0
TOTAL 9 1
Fuente: Análisis del Autor
En este caso, se lograron 9 aciertos y un error de tan solo 1 en una población de 10 personas, lo
que convierte a esta clasificación en la más acertada de todas las especialidades
En la segunda fila de la tabla, se puede observar que las condiciones para el número de sanciones
son continuas (creadas solo por la necesidad de clasificación de las otras especialidades),
pudiendo considerar como un solo nivel en donde Sanciones > 3 días.
En la tercera fila también se da una condición continua (igualmente derivada de la necesidad de
clasificación de las otras especialidades) con relación a las notas de los cursos, debiendo
permanecer un solo criterio de Nota de Cursos mayor a 18,012
INFANTERÍA DE MARINA
Esta especialidad tiene cuatro criterios de clasificación y la cantidad considerada corresponde
bastante a la población real de esta especialidad.
79
Tabla 35. Clasificación de la especialidad de Infantería de Marina al aplicar WEKA con árbol de decisión y
modelo J48
1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL ACIERTOS ERRORES
Sanciones <= 11
NotaGraduacion > 18.133
Sanciones > 5 DiasOpe > 282 6 1
Sanciones > 11
Calificaciones > 19.468
Sanciones <= 38
NotaCursos <= 18.012
4 1
Sanciones > 38 DiasOpe <= 346 NotaGraduacion > 18.643
3 2
DiasOpe > 346 NotaCursos > 17.691
15 1
TOTAL 28 5
Fuente: Análisis del Autor
Para el caso de la Infantería de Marina, se lograron 28 aciertos y 5 errores en una población de 26,
lo cual es bastante acertado y refleja bien a las condiciones de selección para esta especialidad.
Para este caso, no se tienen condiciones iguales en cada una de las cuatro filas de clasificación
existentes.
INTELIGENCIA
Esta especialidad tiene un solo criterio de selección, lo que la coloca como la única especialidad
con una sola forma de seleccionar, sin embargo, hay que considerar que su población también es
la más pequeña de todas, con solo 8 registros del total de la población.
Tabla 36. Clasificación de la especialidad de Inteligencia al aplicar WEKA con árbol de decisión y modelo J48
1° NIVEL 2° NIVEL 3° NIVEL 4° NIVEL 5° NIVEL ACIERTOS
ERRORES
Sanciones <= 11
NotaGraduacion <= 18.133
Sanciones > 3 Sanciones > 4 NotaCursos > 18.478
4 1
TOTAL 4 1
Fuente: Análisis del Autor
Para la especialidad de Inteligencia, se tienen 4 aciertos y 1 error en una población de 8, lo que no
es un valor demasiado confiable, pero se debe tomar en cuenta la poca población analizada.
También se presenta una condición doble respecto al número de sanciones, por lo que se
considera solo las mayores a 3 días.
TODAS LAS ESPECIALIDADES
Si bien conviene dividir la clasificación para analizar la selección de cada especialidad, el verdadero
análisis se lo debe hacer en conjunto en base a los criterios de selección y sus respectivos valores
asociados, por lo que la tabla filtrada para cada uno de los criterios de análisis, se muestra a
continuación:
Tabla 37. Clasificación de todas las especialidades de acuerdo a los criterios de selección al aplicar WEKA
con árbol de decisión y modelo J48
80
ESPECIALIDAD
Sanciones NotaGraduacion NotaCursos Calificaciones
DiasOpe ACIER TOS
ERRO RES
Superficie Sanciones > 3 y <= 11
NotaGraduacion <= 18.133
3 0
Sanciones <=11
NotaGraduacion > 18.133 y <= 18.519
2 1
Sanciones > 5 y <= 11
NotaGraduacion > 18.133
DiasOpe <= 282
2 0
Sanciones > 11 Calificaciones <= 19.468
13 3
Sanciones > 11 y <= 38
NotaGraduacion <= 17.869
NotaCursos > 18.012 y <= 18,35
Calificaciones > 19.468
3 0
Sanciones > 11 y <= 38
NotaGraduacion > 17.869
NotaCursos > 18.012
Calificaciones > 19.468
18 2
Sanciones > 11 NotaGraduacion <= 18.643
Calificaciones > 19.468
DiasOpe <= 346
11 3
Sanciones > 11 NotaCursos <= 17.691
Calificaciones > 19.468
DiasOpe > 346
2 1
Submarinos Sanciones <= 11
NotaGraduacion <= 18.133
DiasOpe <= 316
3 0
Sanciones <= 11
NotaGraduacion > 18.133
2 0
Aviación Naval
Sanciones <= 11
NotaGraduacion <= 18.133
DiasOpe > 316
2 0
Sanciones > 3 y <= 11
NotaCursos <= 18.478
5 1
Sanciones > 11 NotaGraduacion <= 17.869
NotaCursos > 18.012
Calificaciones > 19.468
2 0
Infantería de Marina
Sanciones > 5 y <= 11
NotaGraduacion > 18.133
DiasOpe > 282
6 1
Sanciones > 11 y <= 38
NotaCursos <= 18.012
Calificaciones > 19.468
4 1
Sanciones > 11 NotaGraduacion > 18.643
Calificaciones > 19.468
DiasOpe <= 346
3 2
Sanciones > 11 NotaCursos > 17.691
Calificaciones > 19.468
DiasOpe > 346
15 1
Inteligencia Sanciones > 3 y <= 11
NotaGraduacion <= 18.133
NotaCursos > 18.478
4 1
TOTAL
Fuente: Análisis del Autor
Como se puede observar, el primer criterio de selección es el de cantidad de sanciones, ya que
este valor es el más amplio en cuanto a su rango, el siguiente criterio es la nota de graduación, así
mismo, el rango si bien es menos amplio, constituye el valor de notas con mayor rango; luego
continúan las calificaciones, que realmente posee un rango muy poco amplio y los días de
operación es un valor algo menos considerado para la clasificación.
El valor menos considerado es la nota de los cursos, dado su muy poca amplitud en cuanto a los
valores distribuidos entre la población.
Esta tabla con la estructura general de clasificación generada por el árbol de decisión, es la que
nos permitirá realizar la evaluación del modelo.
81
6.5. Evaluación del modelo
6.5.1. Evaluar el modelo
Para la evaluación del modelo, se ha considerado realizar un análisis de que tan adecuado resulta
la utilización de cada atributo para considerar las ramas del árbol de decisión logrado con el modelo
J48, para esto, a continuación se muestra un cuadro considerando la evaluación de los atributos:
Tabla 38. Tabla de Evaluación del Modelo relacionado a los atributos del modelo considerado.
Atributos Amplitud del
Atributo Precisión
Interpretación del Comportamiento
Sanciones Utiliza valores entre 3 y 38 con intervalos entre 3, 5, 11 y 38
SU.- Utiliza todos los rangos para la clasificación
Las sanciones por si solas no clasifican al personal, se encuentran combinadas con rangos de otros atributos. De acuerdo a los intervalos se puede considerar:
< a 3: Excelente
Entre 3 y 5: Muy Bueno
Entre 5 y 11: Bueno
Mayor a 11: Regular.
SS.- Utiliza un solo rango menor a 11
AV.- Utiliza tres rangos entre menor a 3 y mayor a 11
IM.- Utiliza varios rangos entre mayor a 5 y menor o igual a 38
IN.- Utiliza un solo rango entre mayor a 3 y menor a 11
Nota de Graduación
Utiliza valores entre menor a 17,691 y 18,643 lo que implica un rango de tan solo 0,952 de punto
SU.- Utiliza siete criterios combinados para clasificar utilizando todos los rangos.
La poca amplitud de los rangos de nota de graduación implica que no es un atributo que influya demasiado en el resultado, sin embargo, puede servirnos para determinar tendencias.
SS.- Utiliza dos criterios basados alrededor de la nota 18,133
AV.- Utiliza tres criterios de selección basados en notas menores a 18,478
IM.- Utiliza tres criterios, uno de ellos es el más alto de todos al considerar notas mayores a 18,643
IN.-Utiliza un solo rango menor a 18,133
Nota de Cursos
Se presentan valores entre mayor a 17,691 y mayores a 18,478, con un rango de solo 0,787 de punto
SU.- Utilizado tan solo en dos clasificaciones con valores > 18.012 y <= 18,35
Tiene poca amplitud y también es poco considerado para las diferentes clasificaciones, pero al igual que el atributo de Nota de Graduación, puede ser usado para determinar tendencias.
SS.- No utiliza este atributo para la clasificación
AV.- Utiliza valores mayor a 18.012 combinado con otros atributos.
IM.- Utiliza criterio mayor a 17.691 combinado con otros atributos.
IN.- Utiliza un solo criterio mayor a 18.478 combinado con otros atributos.
Se presenta un solo rango
SU.- Utiliza un criterio mayor a 19.468 combinado con otros
Tiene la menor amplitud, las notas de calificaciones de todo
82
Atributos Amplitud del
Atributo Precisión
Interpretación del Comportamiento
Calificaciones
(excepto en un caso) de valores superiores a 19.468
atributos y uno solo menor o igual a este valor.
el personal se mantienen en valores cercano y en su mayoría superior a un solo valor.
Al ser un atributo que prácticamente tiene un solo criterio, es decir, calificaciones mayores a 19.468, no influye mayormente en el resultado y prácticamente no sirve para determinar tendencias.
SS.- No utiliza este atributo para la clasificación.
AV.- Utiliza valores mayor a 19.468 combinado con otros atributos.
IM.- En tres calificaciones utiliza combinado un valor mayor a 19.468
IN.- No utiliza este atributo para la clasificación.
Días de Operación
Utiliza valores entre los valores de 282, 316 y 346, considerando valores mayores y menores.
SU.- Considera valores menores o iguales a 282, menores o igual a 346 y mayor a este valor combinados con otros atributos.
Los días de operación son un valor adecuado por su amplitud y su distribución entre los criterios de selección, pero igualmente, no actúa solo sino combinado con los criterios para otros atributos.
SS.- Considera un valor menor o igual a 316 en una de sus dos clasificaciones.
AV.- Considera un valor mayor a 316 en una de sus tres clasificaciones.
IM.- Considera un rango amplio, entre mayora 282, menor o igual a 346 y mayor a este valor.
IN.- No utiliza este atributo para la clasificación.
Fuente: Análisis del Autor
De este primer análisis, podemos determinar que el único atributo que no aporta prácticamente en
nada es las calificaciones, los motivos por los que sucede esto se deben principalmente a:
La nota de Calificación Anual requiere evaluar ciertos parámetros para diferenciar al
personal en su comportamiento, sin embargo, dentro de los parámetros normales, la
mayoría de personal adecúa su comportamiento de modo que las calificaciones suelen
permanecer altas, siendo este un tema más bien de carácter coyuntural.
Las desviaciones producidas en la nota de calificaciones suelen ser muy pequeñas y los
casos en que una calificación se sale del rango normal son raras, lo que no deja un valor
de evaluación adecuado para el análisis.
6.5.2. Parámetros de ajustes revisados
Por lo indicado en el análisis anterior, el atributo Calificaciones no va a ser considerado, con lo que
se procederá a eliminar de la tabla preparada para el análisis.
83
Luego de haber realizado esta modificación, al preparar los datos sin la columna de Calificaciones,
tenemos los siguientes datos utilizando árboles de decisión con el modelo J48:
Tabla 39. Datos de la segunda corrida de Exploración de los datos modificados en el programa WEKA
=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka06 Instances: 100 Attributes: 5 Nota Graduación Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data
=== Classifier model (full training set) === J48 pruned tree ------------------ Sanciones <= 11 | Nota Graduacion <= 18.133 | | Sanciones <= 3 | | | DiasOpe <= 316: SS (3.0) | | | DiasOpe > 316: AV (2.0) | | Sanciones > 3 | | | Sanciones <= 4: SU (3.0) | | | Sanciones > 4 | | | | Nota Cursos <= 18.478: AV (5.0/1.0) | | | | Nota Cursos > 18.478: IN (4.0/1.0) | Nota Graduacion > 18.133 | | Sanciones <= 5 | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | Nota Graduacion > 18.519: SS (2.0) | | Sanciones > 5 | | | DiasOpe <= 282: SU (2.0) | | | DiasOpe > 282: IM (6.0/1.0) Sanciones > 11 | DiasOpe <= 177 | | Nota Cursos <= 18.554 | | | DiasOpe <= 66: SU (6.0) | | | DiasOpe > 66 | | | | Sanciones <= 39: SU (2.0) | | | | Sanciones > 39: SS (2.0) | | Nota Cursos > 18.554: AV (2.0/1.0) | DiasOpe > 177 | | Sanciones <= 33 | | | Nota Cursos <= 18.894 | | | | Nota Graduacion <= 17.34: IM (2.0/1.0) | | | | Nota Graduacion > 17.34 | | | | | DiasOpe <= 618: SU (12.0) | | | | | DiasOpe > 618 | | | | | | DiasOpe <= 653: IM (2.0) | | | | | | DiasOpe > 653: SU (7.0/1.0) | | | Nota Cursos > 18.894: IM (2.0/1.0) | | Sanciones > 33 | | | Nota Cursos <= 17.691: SU (11.0/2.0) | | | Nota Cursos > 17.691: IM (23.0/6.0) Number of Leaves : 20 Size of the tree : 39 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 84 84 %
84
Incorrectly Classified Instances 16 16 % Kappa statistic 0.7657 Mean absolute error 0.0944 Root mean squared error 0.2172 Relative absolute error 33.7242 % Root relative squared error 58.2724 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.891 0.074 0.911 0.891 0.901 0.96 SU 1 0.122 0.743 1 0.852 0.955 IM 0.7 0.022 0.778 0.7 0.737 0.978 AV 0.7 0 1 0.7 0.824 0.968 SS 0.375 0.011 0.75 0.375 0.5 0.928 IN Weighted Avg. 0.84 0.069 0.85 0.84 0.832 0.959 === Confusion Matrix === a b c d e <-- classified as 41 4 1 0 0 | a = SU 0 26 0 0 0 | b = IM 1 1 7 0 1 | c = AV 1 2 0 7 0 | d = SS 2 2 1 0 3 | e = IN
Fuente: Machine Learning Group at the University of Waikato
Este resultado fue obtenido luego de aplicar todos los métodos existentes para árboles de decisión
en el programa WEKA, se verifica que el método del algoritmo J48 sigue generando el mejor
resultado, al obtener un 84% para las instancias clasificadas correctamente y 16% de instancias
clasificadas incorrectamente.
Este resultado nos genera el siguiente árbol de decisión:
Figura 17. Árbol de Decisión utilizando J48 para los datos actualizados
analizados en WEKA.
Fuente: Machine Learning Group at the University of Waikato
85
Realizando el mismo procedimiento anterior, podemos verificar en la siguiente tabla la distribución
de los criterios de acuerdo a los atributos seleccionados y su cantidad de aciertos y errores:
Tabla 40. Clasificación de todas las especialidades excluyendo el atributo de Calificaciones al aplicar WEKA con árbol de decisión y modelo J48
ESPECIA LIDAD
Sanciones NotaGraduacion NotaCursos DiasOpe ACIER TOS
ERRO RES
Superficie Sanciones > 3 y <= 11 Nota Graduacion <= 18.133
3 0
Sanciones <= 11 Nota Graduacion > 18.133 y <= 18.519
2 1
Sanciones > 5 y <= 11 Nota Graduacion > 18.133 DiasOpe <= 282 2 0
Sanciones > 11 Nota Cursos <= 18.554
DiasOpe <= 177 6 0
Sanciones > 11 y <= 39
Nota Cursos <= 18.554
DiasOpe > 66 y <= 177
2 0
Sanciones > 11 y <= 33
Nota Graduacion > 17.34 Nota Cursos <= 18.894
DiasOpe > 177 y <= 618
12 0
Sanciones > 11 y <= 33
Nota Graduacion > 17.34 Nota Cursos <= 18.894
DiasOpe > 177 7 1
Sanciones > 11 Nota Cursos <= 17.691
DiasOpe > 177 11 2
Submarinos Sanciones <= 11 Nota Graduacion <= 18.133
DiasOpe <= 316 3 0
Sanciones <= 11 Nota Graduacion > 18.133 2 0 Sanciones > 11 Nota Cursos <=
18.554 DiasOpe > 66 y <= 177
2 0
Aviación Naval
Sanciones <= 11 Nota Graduacion <= 18.133
DiasOpe > 316 2 0
Sanciones > 3 y <= 11 Nota Graduacion <= 18.133
Nota Cursos <= 18.478
5 1
Sanciones > 11 Nota Cursos > 18.554
DiasOpe <= 177 2 1
Infantería de Marina
Sanciones > 5 y <= 11 Nota Graduacion > 18.133 DiasOpe > 282 6 1
Sanciones > 11 y <= 33
Nota Graduacion <= 17.34 Nota Cursos <= 18.894
DiasOpe > 177 2 1
Sanciones > 11 y <= 33
Nota Graduacion > 17.34 Nota Cursos <= 18.894
DiasOpe > 177 y <= 653
2 0
Sanciones > 11 y <= 33
Nota Cursos > 18.894
DiasOpe > 177 2 1
Sanciones > 11 Nota Cursos > 17.691
DiasOpe > 177 23 6
Inteligencia Sanciones > 3 y <= 11 Nota Graduacion <= 18.133
Nota Cursos > 18.478
4 1
TOTAL
Fuente: Análisis del Autor
En esta tabla se puede observar que el acierto y errores variaron:
Para superficie mejoró al tener 45 aciertos de una población de 46 y un total de 4 errores,
frente a 54 aciertos (excedido) y 10 errores (valor mayor) del análisis anterior.
Para Submarinos mejoró al tener 7 aciertos de una población de 10 y cero errores, frente
a 5 aciertos (más bajo) y cero errores del análisis anterior.
Para la Aviación Naval, se mantiene casi igual, con un ligero aumento del error al tener 9
aciertos de una población de 10 y dos errores, frente a 9 aciertos y un error del análisis
anterior.
86
Para la Infantería de Marina, la situación empeoró al tener 35 aciertos de una población
de 26 y nueve errores, frente a 28 aciertos y cinco errores del análisis anterior.
Para Inteligencia, la situación se mantiene igual con 4 aciertos y un error a la del análisis
anterior.
En el caso de la Infantería de Marina, al desaparecer el atributo de las calificaciones, el árbol
calculado con el método J48 tomó en cuenta la Nota de Cursos y el valor de rango considerado
para los Días de Operación bajó el límite, ya que en el análisis anterior, se consideraba para la
clasificación valores menores o iguales y mayores a un límite de clasificación de 346 días; con el
nuevo cálculo, este límite bajo a 177 días, lo que hizo clasificar a más personal del requerido.
En el análisis anterior, observamos que un grupo de 6 IM tienen en una clasificación una cantidad
de días mayor a 282, mientras que en otra clasificación 15 IM tienen una cantidad de días mayor
a 346, es decir, 21 IM tenían al menos 282 días mientras que solo 4 no toma en cuenta el número
de días.
En el nuevo análisis, al bajar el límite a 177 solo 6 de los 35 aciertos mantienen días mayor a 282,
por lo que se puede establecer este como el factor del aumento de los aciertos (que no causa
confiabilidad) y aumento de los errores.
Para solucionar este desfase grande de la clasificación de la Infantería de Marina, vamos a recurrir
a una solución “artificial”, manipulando los datos de cuatro registros del personal de Infantería de
Marina por las siguientes razones:
El promedio general de la Infantería de Marina para los días de operación es de 459, mientras
que estos cuatro registros tienen valores muy bajos para el promedio y consiguen que el
método de clasificación se distorsione y presente errores considerables.
Tomando en cuenta que en el primer análisis la mayoría de la población de la Infantería de
Marina se ubicaba sobre los 346 días de operación, se va a cambiar estos cuatro registros
por este valor para mejorar el análisis general.
Luego de haber realizado esta modificación, al preparar los datos modificando cuatro registros más
bajos de la Infantería de Marina para que tengan un valor de días de operación de 346 días,
tenemos los siguientes datos utilizando árboles de decisión con el modelo J48:
Tabla 41. Datos de la tercera corrida de Exploración de los datos modificados en el programa WEKA
=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07 Instances: 100 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data
87
=== Classifier model (full training set) === J48 pruned tree ------------------ DiasOpe <= 313 | Sanciones <= 3: SS (3.0) | Sanciones > 3 | | Sanciones <= 25 | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | Nota Graduacion > 17.8: SU (11.0/2.0) | | Sanciones > 25 | | | Nota Graduacion <= 19.021: SU (18.0/3.0) | | | Nota Graduacion > 19.021: AV (2.0/1.0) DiasOpe > 313 | Sanciones <= 33 | | Nota Graduacion <= 18.133 | | | Nota Cursos <= 18.012: IM (2.0) | | | Nota Cursos > 18.012 | | | | DiasOpe <= 729 | | | | | Nota Cursos <= 18.35: SU (4.0/1.0) | | | | | Nota Cursos > 18.35: AV (7.0) | | | | DiasOpe > 729: SU (6.0) | | Nota Graduacion > 18.133 | | | Sanciones <= 20 | | | | Sanciones <= 5 | | | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | | | Nota Graduacion > 18.519: SS (2.0) | | | | Sanciones > 5: IM (9.0/2.0) | | | Sanciones > 20: SU (5.0) | Sanciones > 33 | | Nota Cursos <= 17.691 | | | Sanciones <= 104: SU (5.0) | | | Sanciones > 104: SS (2.0/1.0) | | Nota Cursos > 17.691: IM (19.0/2.0) Number of Leaves : 16 Size of the tree : 31 Time taken to build model: 0.03 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 86 86 % Incorrectly Classified Instances 14 14 % Kappa statistic 0.7907 Mean absolute error 0.0845 Root mean squared error 0.2055 Relative absolute error 30.2012 % Root relative squared error 55.1448 % Total Number of Instances 100 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.957 0.13 0.863 0.957 0.907 0.953 SU 1 0.054 0.867 1 0.929 0.98 IM 0.8 0.011 0.889 0.8 0.842 0.992 AV 0.6 0.011 0.857 0.6 0.706 0.966 SS 0.25 0.011 0.667 0.25 0.364 0.912 IN Weighted Avg. 0.86 0.077 0.85 0.86 0.843 0.962 === Confusion Matrix === a b c d e <-- classified as 44 2 0 0 0 | a = SU 0 26 0 0 0 | b = IM 1 0 8 0 1 | c = AV 3 0 1 6 0 | d = SS 3 2 0 1 2 | e = IN
88
Fuente: Machine Learning Group at the University of Waikato
Este resultado nos genera el siguiente árbol de decisión:
Figura 18. Árbol de Decisión utilizando J48 para los datos actualizados por tercera vez y analizados en
WEKA
Fuente: Machine Learning Group at the University of Waikato
Realizando el mismo procedimiento anterior, podemos verificar en la siguiente tabla la distribución de los criterios de acuerdo a los atributos seleccionados y su cantidad de aciertos y errores:
Tabla 42. Clasificación de todas las especialidades, modificando cuatro registros de la Especialidad de
Infantería de Marina, y aplicar WEKA con árbol de decisión y modelo J48
ESPECIA LIDAD
DiasOpe Sanciones NotaGraduacion NotaCursos ACIER TOS
ERRO RES
Superficie DiasOpe <= 313 Sanciones > 3 y <= 25
Nota Graduacion > 17.8 11 2
DiasOpe <= 313 Sanciones > 3 Nota Graduacion <= 19.021
18 3
DiasOpe > 313 y <= 729
Sanciones <= 33 Nota Graduacion <= 18.133
Nota Cursos > 18.012 y<= 18.35
4 1
DiasOpe > 313 Sanciones <= 33 Nota Graduacion <= 18.133
Nota Cursos > 18.012
6 0
DiasOpe > 313 Sanciones <= 33 Sanciones <= 20
Nota Graduacion > 18.133 y <= 18.519
2 1
DiasOpe > 313 Sanciones <= 33 Sanciones > 20
Nota Graduacion > 18.133
5 0
DiasOpe > 313 Sanciones > 33 y <= 104
Nota Cursos <= 17.691
5 0
Submarinos DiasOpe <= 313 Sanciones <= 3 3 0 DiasOpe > 313 Sanciones <= 33 Nota Graduacion >
18.133 2 0
DiasOpe > 313 Sanciones > 33 Nota Cursos <= 17.691
2 1
Aviación Naval
DiasOpe <= 313 Sanciones > 3 Nota Graduacion > 19.021
2 1
89
ESPECIA LIDAD
DiasOpe Sanciones NotaGraduacion NotaCursos ACIER TOS
ERRO RES
DiasOpe > 313 Sanciones <= 33 Nota Graduacion <= 18.133
Nota Cursos > 18.012
7 0
Infantería de Marina
DiasOpe > 313
Sanciones <= 33 Nota Graduacion <= 18.133
Nota Cursos <= 18.012
2 0
DiasOpe > 313
Sanciones > 5 y <= 33
Nota Graduacion > 18.133
9 2
DiasOpe > 313
Sanciones > 33 Nota Cursos > 17.691
19 2
Inteligencia DiasOpe <= 729 Sanciones > 3 y <= 25
Nota Graduacion <= 17.8
3 1
TOTAL
Fuente: Análisis del Autor
En esta tabla se puede observar que el acierto y errores variaron:
En general, este nuevo árbol inicia su clasificación ya no por sanciones sino por días de
operación, esto mejora las instancias correctamente clasificadas al 86% y las
incorrectamente clasificados en un 14%.
Para superficie la situación empeoró un poco al presentar 41 aciertos de una población de
46 y un total de 7 errores, frente a 45 aciertos (más exacto) y 4 errores (valor menor) del
análisis anterior.
Para Submarinos está casi igual con un ligero aumento del error al tener 7 aciertos de una
población de 10 y un error, frente al mismo número de aciertos y cero errores del análisis
anterior.
Para la Aviación Naval, hay una ligera mejoría al tener 9 aciertos de una población de 10 y
un error, frente al mismo número de aciertos y dos errores del análisis anterior.
Para la Infantería de Marina, la situación mejoró ya que ahora se presentan 30 aciertos de
una población de 26 y cuatro errores, frente a 35 aciertos (excedido) y nueve errores (mayor
cantidad) del análisis anterior.
Para Inteligencia, la situación empeoró ligeramente al tener 3 aciertos y un error frente a
cuatro aciertos y un error del análisis anterior.
Con respecto a los cambios indicados, el resultado es que el árbol tiene un diseño más simple de
menor tamaño y que en general se ajusta a la clasificación de todas las especialidades y con un
porcentaje de elementos correctamente clasificados del 86%.
6.5.3. División de los registros
Una opción de análisis, es dividir los registros en dos grupos y verificar si se mantiene la estructura,
para ello, realizaremos una corrida con los datos solamente con Oficiales y otra solo con
Tripulantes.
El primer análisis (solo con oficiales) y aplicando el mismo patrón anterior (es decir, árbol de
decisión con método j48 y utilizando la mejor estimación con “use training set”), tenemos los
siguientes datos:
90
Tabla 43. Datos de la corrida de Exploración de los datos modificados tomando en cuenta solo OFICIALES
en el programa WEKA
=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07(01) Instances: 38 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data
=== Classifier model (full training set) === J48 pruned tree ------------------ Nota Graduacion <= 18.122 | Sanciones <= 3 | | DiasOpe <= 316: SS (3.0) | | DiasOpe > 316: AV (2.0) | Sanciones > 3 | | DiasOpe <= 729 | | | DiasOpe <= 338 | | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | | Nota Graduacion > 17.8: SU (4.0/1.0) | | | DiasOpe > 338: AV (7.0/1.0) | | DiasOpe > 729: SU (6.0) Nota Graduacion > 18.122 | Nota Graduacion <= 18.461 | | Nota Cursos <= 18.626: IM (4.0) | | Nota Cursos > 18.626 | | | Nota Graduacion <= 18.376: SU (3.0/1.0) | | | Nota Graduacion > 18.376: IM (3.0/1.0) | Nota Graduacion > 18.461: SS (3.0/1.0) Number of Leaves : 10 Size of the tree : 19 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 32 84.2105 % Incorrectly Classified Instances 6 15.7895 % Kappa statistic 0.794 Mean absolute error 0.09 Root mean squared error 0.2121 Relative absolute error 29.1704 % Root relative squared error 54.1277 % Total Number of Instances 38 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.846 0.08 0.846 0.846 0.846 0.955 SU 1 0.031 0.857 1 0.923 0.995 IM 0.889 0.034 0.889 0.889 0.889 0.981 AV 1 0.03 0.833 1 0.909 0.994 SS 0.4 0.03 0.667 0.4 0.5 0.918 IN Weighted Avg. 0.842 0.048 0.833 0.842 0.831 0.968
91
=== Confusion Matrix === a b c d e <-- classified as 11 0 1 1 0 | a = SU 0 6 0 0 0 | b = IM 0 0 8 0 1 | c = AV 0 0 0 5 0 | d = SS 2 1 0 0 2 | e = IN
Fuente: Machine Learning Group at the University of Waikato
Como se puede observar en la tabla anterior, se mantiene el porcentaje de aciertos (84,21%) y
errores (15,79%) y la matriz de confusión en forma muy similar al análisis general, pero esta vez
se presentan menos errores y el tamaño del árbol es considerablemente menor (19 frente a 31 del
análisis general).
El nuevo árbol de decisión obtenido empieza su clasificación por la nota de graduación, lo que es
un cambio importante respecto al árbol general; el árbol se lo puede observar en el siguiente
gráfico:
Figura 19. Árbol de Decisión utilizando J48 para los datos actualizados solo para OFICIALES y analizados en WEKA.
Fuente: Machine Learning Group at the University of Waikato
Para el caso de Tripulantes, se tiene un total de 62 registros, a los cuales se les aplicó el mismo
procedimiento utilizado para oficiales, obteniéndose la siguiente tabla de resultados:
Tabla 44. Datos de la corrida de Exploración de los datos modificados tomando en cuenta solo
TRIPULANTES en el programa WEKA
92
=== Run information === Scheme:weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: PruebaWeka07(02) Instances: 62 Attributes: 5 Nota Graduacion Nota Cursos Sanciones DiasOpe Especialidad Test mode:evaluate on training data
=== Classifier model (full training set) === J48 pruned tree ------------------ DiasOpe <= 320 | Nota Graduacion <= 19.032: SU (23.0/3.0) | Nota Graduacion > 19.032: SS (2.0/1.0) DiasOpe > 320 | Sanciones <= 104 | | Nota Graduacion <= 18.121: IM (11.0/1.0) | | Nota Graduacion > 18.121 | | | Nota Cursos <= 18.147: SU (7.0) | | | Nota Cursos > 18.147 | | | | Sanciones <= 36 | | | | | Sanciones <= 9: IM (2.0/1.0) | | | | | Sanciones > 9: SU (6.0/1.0) | | | | Sanciones > 36: IM (6.0) | Sanciones > 104 | | Nota Graduacion <= 18.251: IN (3.0/1.0) | | Nota Graduacion > 18.251: SS (2.0/1.0) Number of Leaves : 9 Size of the tree : 17 Time taken to build model: 0 seconds === Evaluation on training set === === Summary === Correctly Classified Instances 53 85.4839 % Incorrectly Classified Instances 9 14.5161 % Kappa statistic 0.7517 Mean absolute error 0.0841 Root mean squared error 0.2051 Relative absolute error 34.0103 % Root relative squared error 58.969 % Total Number of Instances 62 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure ROC Area Class 0.97 0.138 0.889 0.97 0.928 0.941 SU 0.4 0.035 0.5 0.4 0.444 0.867 SS 0.85 0.048 0.895 0.85 0.872 0.976 IM 0.667 0.017 0.667 0.667 0.667 0.986 IN 0 0 0 0 0 0.992 AV
93
Weighted Avg. 0.855 0.092 0.834 0.855 0.843 0.949 === Confusion Matrix === a b c d e <-- classified as 32 0 1 0 0 | a = SU 3 2 0 0 0 | b = SS 1 1 17 1 0 | c = IM 0 0 1 2 0 | d = IN 0 1 0 0 0 | e = AV
Fuente: Machine Learning Group at the University of Waikato
Aquí también se puede observar respecto a la tabla anterior, que se mantiene el porcentaje de
aciertos (85,48%) y errores (14,52%) y la matriz de confusión en forma muy similar al análisis
general, pero esta vez no se obtiene en el desarrollo del árbol ninguna clasificación para la
especialidad de Aviación Naval, esto se debe a la presencia de un solo registro relacionado a esta
especialidad; a su vez, se presentan mayores errores en la clasificación de la especialidad de
submarinos e inteligencia.
El nuevo árbol de decisión obtenido continúa con su clasificación por los días de operación pero
tiene menor tamaño (solo 17); el árbol se lo puede observar en el siguiente gráfico:
Figura 20. Árbol de Decisión utilizando J48 para los datos actualizados solo para TRIPULANTES y
analizados en WEKA
Fuente: Machine Learning Group at the University of Waikato
De los dos análisis anteriores, tanto de oficiales como tripulantes, se pueden determinar las
siguientes observaciones:
1. El árbol de decisión solo para oficiales mejora ligeramente la clasificación del personal en
las diferentes especialidades.
94
2. El árbol de decisión solo para tripulantes presenta mayores errores y no clasifica la
especialidad de Aviación Naval por tener tan solo un registro, por tanto, no se puede usar
como árbol adecuado para la clasificación.
3. Ambos árboles reducen ostensiblemente el tamaño del árbol desarrollado para cada grupo,
aunque en el árbol de decisión para oficiales se cambia el primer factor de clasificación
De lo anterior, podemos decir que el árbol de decisión general realizado en su tercera corrida, sigue
siendo el más adecuado aún para ser considerado como el patrón para la clasificación de personal.
95
7. FASE V: EVALUACIÓN
96
7.1. Evaluación de los resultados
7.1.1. Evaluar los resultados
En el proceso de elaboración del modelo, se requiere realizar la evaluación del modelo
considerado hasta el momento, por tanto, a continuación en la siguiente tabla se expone la
evaluación de los resultados.
Tabla 45. Tabla de Evaluación del Modelo relacionado a los perfiles y factores de éxito
Especia lidad
Perfiles Factores de
Éxito Atributos
Condiciones de selección
Superficie Todos los Oficiales y Tripulantes de Arma tienen la orientación hacia esta especialidad; salud adecuada y capacidad física normal.
Capacidad de estudio y dedicación del alumno y en su afinidad hacia el embarque en buques.
Días de Operación
La mayor parte de la población (56%) de superficie tiene una cantidad menor a 313 días de Operación y solo algo más del 30% supera esa cantidad de días de operación
Ya que la cantidad de días de navegación es considerable (teniendo un 30% que supera el promedio) es importante evaluar la capacidad del aspirante para permanecer a bordo y superar las dificultades del mismo como mareos o aislamiento.
Sanciones
La mayor parte del personal tiene menos de 33 días de arresto.
Es importante considerar en la selección que los candidatos tengan una disciplina acorde a la vida a bordo de los buques.
Nota de Graduación
La mayor parte mantiene una nota de graduación mayor a 17.8 y menor a 19.021
Se deben considerar estos valores para la selección de los aspirantes a superficie en cuanto a su nota de graduación como un dato para la selección.
Nota de Cursos
No se aplica a todas las clasificaciones de superficie, solo a cerca del 30% de la población, las notas se mantienen entre mayor a 18,012 y menor a 18,35
La nota de cursos se debe tomar del primer curso que realiza el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de superficie.
Submarinos Voluntario.
Buena salud especialmente en su sistema otorrino (nariz – oído – boca)
No debe padecer claustrofobia.
Capacidad de estudio y dedicación del alumno.
Habilidad para controlar el submarino (para Oficiales)
Días de Operación
Un poco más del 60% de la población de submarinistas tiene más de 313 días de operación en la mar y solo un poco más del 30% tiene menos de 313 días.
Si bien la cantidad de días es considerable, también existe un valor menor al promedio, sin embargo, dada la condición especial de los submarinos, es importante que para la selección se considere que los aspirantes puedan superar
97
Especia lidad
Perfiles Factores de
Éxito Atributos
Condiciones de selección
Capacidad de autocontrol y reacción positiva ante emergencias.
Persona sociable y colaborativa al máximo.
Habilidad para operar en forma eficiente y segura los equipos y sistemas (Oficiales y Tripulantes)
Buena afinidad para el embarque en un submarino.
factores como la convivencia en un lugar cerrado y no tener claustrofobia, entre otras.
Sanciones
Algo más del 60% de la población tiene menos de 33 días de arresto, sin embargo, es de notar que aproximadamente el 30% tiene menos de 3 días de arresto. El otro 30% tiene más de 33 días de arresto.
A pesar de la amplitud en cuanto a la cantidad de sanciones, en los submarinos es importante considerar en la selección que los candidatos tengan una disciplina acorde a la vida dentro del submarino.
Nota de Graduación
Algo más del 60% no se le considera en la selección la nota de graduación. Menos del 30% mantiene una nota mayor a 18,133
Se deben considerar estos valores para la selección de los aspirantes a submarinos en cuanto a su nota de graduación como un dato para la selección.
Nota de Cursos
Algo más del 60% no se le considera en la selección la nota de cursos. Menos del 30% mantiene una nota en los cursos menor a 17,691
La nota de cursos se debe tomar del primer curso que se realiza antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de submarinos.
Aviación Naval
Voluntario.
Buena salud, soporte variaciones de presión
Rápida habilidad mental y buena visión (Oficiales)
Capacidad para soportar el ambiente en cabinas cerradas y vuelo en grandes alturas.
Capacidad de reacción ante
Capacidad de estudio y dedicación del alumno.
Buena habilidad para operar las aeronaves (Oficiales).
Habilidad para operar, mantener y reparar los equipos de las aeronaves y helicópteros (tripulantes).
Afinidad a la aviación en general.
Días de Operación
Más del 75% mantienen una cantidad mayor a 313 días de operación y solo algo más del 20% tiene menos de ese valor.
Este caso también se mantienen algunos valores por debajo del promedio, pero igualmente considerables por lo que se requiere los aspirantes tengan afinidad a volar y superar las condiciones de peligro que se pueden presentar durante las horas de vuelo.
Sanciones
Toda la población analizada tiene menos de 33 días de arresto.
Se observa en general que se mantiene un nivel aceptable de baja cantidad de sanciones, esto debe ser exigido para seleccionar al personal y mantenido durante la carrera.
98
Especia lidad
Perfiles Factores de
Éxito Atributos
Condiciones de selección
emergencias (Oficiales y Tripulantes).
Estatura máxima permitida.
Nota de Graduación
Más del 75% tienen una nota de graduación menor a 18,133 y solo algo más del 20% tiene una nota mayor a 19,021.
Se deben considerar estos valores para la selección de los aspirantes a Aviación Naval en cuanto a su nota de graduación como un dato para la selección, considerando que aquí se encuentran las notas más altas de este atributo.
Nota de Cursos
Solo se aplica a algo más del 75% la nota de cursos, manteniéndose en un valor mayor a 18,012
Esta nota se debe tomar del primer curso que realizan los oficiales y tripulantes antes de entrar en la selección, de acuerdo a los valores considerados para este curso.
Infantería de Marina
Voluntario.
Buena salud.
Buena condición física.
Capacidad de liderazgo
Fortaleza de carácter.
Capacidad de estudio, dedicación y preparación física.
Carácter firme.
Capacidad de reacción, arrojo y liderazgo.
Días de Operación
Toda la población mantiene un valor (que fue modificado en sus inicios) mayor a 313 días de operación en el terreno.
La alta cantidad de días (que ya fue analizado y modificado) hacen que sea importante que el aspirante tenga una capacidad física y adaptación al medio para ser seleccionado.
Sanciones
Más del 60% de la población de Infantería de Marina tiene una cantidad de días de arresto superior a 33 días y solo algo más del 30% se mantiene por debajo de los 33 días de arresto.
Los casos de personal sancionado son mayores que en las otras especialidades, por lo que se debe mantener en alto la necesidad de que los aspirantes tengan un liderazgo y conducta apropiada.
Nota de Graduación
Solo se considera para el 30% de la población un valor de nota de graduación superior a 18,133 y para el 6% una nota menor a este valor.
Se deben considerar estos valores para la selección de los aspirantes a Infantería de Marina en cuanto a su nota de graduación como un dato para la selección.
Nota de Cursos
Para el 6% se considera una nota de cursos menor a 18,012, mientras que para más del 60% se considera una nota de cursos mayor a 17,691
La nota de cursos se debe tomar del primer curso que realiza el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de Infantería de Marina.
99
Especia lidad
Perfiles Factores de
Éxito Atributos
Condiciones de selección
Inteligencia Requiere un análisis previo de los antecedentes y factores psicológicos.
Buena salud.
Buena condición física.
Capacidad de estudio, dedicación.
Condiciones físicas adecuadas.
Capacidad de discreción y confiabilidad.
Días de Operación
Se considera un valor para toda la población menor o igual a 729 días de operación.
La gran cantidad de días en operaciones de inteligencia que el personal debe cumplir sugieren que el aspirante debe tener las cualidades físicas y capacidades psicológicas para poder efectuar estas operaciones.
Sanciones
Para todos se consideran valores superiores a 3 días y menores o iguales a 25 días de arresto.
Son los que tienen el nivel más bajo de sanciones, lo que está acorde con la necesidad de seleccionar personal con un nivel psicológico y de antecedentes de buena conducta.
Nota de Graduación
La nota de graduación considerada para esta especialidad es menor o igual a 17,8
Se deben considerar estos valores para la selección de los aspirantes a Inteligencia en cuanto a su nota de graduación como un dato para la selección.
Nota de Cursos
No se considera en la selección ninguna nota de cursos para esta especialidad
La nota de cursos se debe tomar de los cursos que ya haya realizado el personal antes de entrar en la selección, de acuerdo a estos valores considerados para el personal de Inteligencia.
Fuente: DIGREH / Análisis del Autor
Como se puede observar en la tabla anterior, los criterios de selección del modelo seleccionado,
refuerzan los factores que actualmente están siendo considerados, pero introduciendo además
valores reales con los que se puede realizar una clasificación previa del personal de Oficiales y
Tripulantes para determinar –en base a las calificaciones, sanciones y tiempo de operación-
quienes tienen la mejor opción de desempeñarse adecuadamente dentro de cada una de las
especialidades, de acuerdo a lo establecido por este modelo (hay que tomar en cuenta que no
se considera para el análisis a toda la población sino solamente a la muestra de 100 personas
seleccionada para realizar este estudio).
100
7.1.2. Estudio de Casos
Para verificar el modelo, se ha procedido a realizar una comparación de los datos considerados
en este estudio, aplicando el algoritmo de selección para determinar en forma real, como se tratan
los datos dentro del algoritmo; se ha considerado de esta forma tomando en cuenta que los
parámetros de selección determinados en WEKA, son calculados en base al modelo j48 y forma
de análisis optimista (utilizados al momento de crear el árbol), pero al aplicar los datos en las
ramas de acuerdo a los valores de ingreso o exclusión de cada una, se obtiene que tan
adecuadamente el modelo determinó los criterios de selección. Utilizando la aplicación Excel y su
capacidad de generar fórmulas, se obtuvo la siguiente tabla:
Tabla 46. Comparación de los datos utilizados con el algoritmo seleccionado
DiasOpe Sanciones Nota
Graduación NotaCursos
RESULTADOS REAL
% ACIERTOS
SU SS AV IM IN
26 6 18,915 19,141 SU SU 100,00%
316 13 18,439 19,021 SU SS IM IM 33,33%
374 5 17,930 18,675 SU AV AV 50,00%
764 8 17,590 18,470 SU AV SU 50,00%
698 25 17,860 18,602 SU AV AV 50,00%
213 16 18,376 18,802 SU AV SU 100,00%
648 7 18,400 18,554 SU SS IM IM 33,33%
429 17 17,320 18,385 SU AV IM AV 33,33%
313 0 17,931 18,688 SS SS 100,00%
304 11 18,084 18,582 SU IN 0,00%
346 5 18,588 18,840 SS SS 100,00%
115 4 17,845 18,437 SU SU 100,00%
510 10 18,152 18,626 SU SS IM AV IM 33,33%
766 6 18,335 18,549 SU SS IM IM 33,33%
1002 14 17,531 18,202 SU AV SU 50,00%
127 10 17,480 18,123 SU IN AV 0,00%
618 10 17,340 18,253 SU AV IN AV 33,33%
766 25 17,832 18,317 SU AV SU 33,33%
597 22 17,569 18,175 SU AV IN SU 33,33%
543 3 18,122 18,874 SU AV AV 50,00%
729 3 18,916 19,090 SS SS 100,00%
1031 2 18,308 18,852 SU SS SU 50,00%
338 0 18,461 18,894 SU SS IN 0,00%
685 10 17,592 18,432 SU AV AV 50,00%
854 4 17,935 18,588 SU AV SU 50,00%
494 9 18,390 18,890 SU SS IM IM 33,33%
252 15 17,948 18,600 SU SU 100,00%
309 3 17,853 18,510 SS SS 100,00%
125 4 18,001 18,662 SU SU 100,00%
690 7 17,676 18,478 SU AV IN AV 33,33%
79 7 17,625 18,490 SU IN IN 50,00%
320 2 17,479 18,413 SU AV AV 50,00%
144 25 18,202 18,687 SU IN 0,00%
101
DiasOpe Sanciones Nota
Graduación NotaCursos
RESULTADOS REAL
% ACIERTOS
SU SS AV IM IN
237 2 17,565 18,477 SS SS 100,00%
1082 17 17,886 18,394 SU AV SS SU 50,00%
296 5 17,800 18,498 SU IN IN 50,00%
865 14 18,120 18,666 SU AV SU 50,00%
452 64 18,276 18,396 IM IM 100,00%
80 6 19,032 18,946 SU AV SU 50,00%
214 55 19,039 18,012 AV SS 0,00%
874 54 18,629 18,649 IM IM 100,00%
385 71 18,561 17,681 SU SS SU 50,00%
177 38 18,149 17,609 SU SU 50,00%
550 103 18,241 17,486 SU SS SU 50,00%
66 35 18,308 18,206 SU SU 100,00%
653 16 18,643 18,600 SS IM IM 50,00%
569 41 18,121 18,350 IM IM 100,00%
241 104 18,175 18,159 SU IM 0,00%
391 52 18,719 18,708 IM IM 100,00%
1051 189 18,109 18,100 IM IN 100,00%
1764 69 17,869 17,948 IM IM 100,00%
552 77 18,539 18,458 IM IM 100,00%
672 151 17,984 17,951 IM IM 100,00%
213 121 18,721 18,127 SU IM 0,00%
977 90 17,770 17,771 IM IM 100,00%
991 8 18,418 18,440 SU SS IM IN 0,00%
241 20 18,834 18,554 SU SU 100,00%
581 16 18,133 18,131 SU AV SU 50,00%
600 39 18,251 18,209 IM IM 100,00%
690 32 18,455 18,376 SU SS IM SU 33,33%
678 84 19,703 19,000 IM IM 50,00%
366 27 19,054 18,889 SU SS IM SU 33,33%
653 33 17,916 17,932 IM IM 100,00%
411 41 17,853 17,847 IM IM 100,00%
63 44 17,843 17,822 SU SU 100,00%
945 55 18,066 18,038 IM IM 100,00%
17 24 18,292 18,291 SU SU 50,00%
393 47 17,972 17,971 IM IM 100,00%
207 28 19,021 18,733 SU SU 100,00%
417 66 18,069 18,089 IM IM 100,00%
179 36 17,887 17,843 SU IM 0,00%
408 14 18,763 18,589 SS IM SU 0,00%
180 15 17,212 17,237 SU IN IM 0,00%
105 67 17,793 17,691 SU SS 0,00%
320 25 18,352 17,398 SU SS IM SU 33,33%
610 106 17,321 17,259 SS IN 0,00%
401 33 18,329 18,298 SU SS IM SU 33,33%
487 37 18,191 18,147 IM SU 0,00%
265 76 18,158 18,205 SU SU 100,00%
875 76 18,742 17,530 SU SS SU 50,00%
66 62 17,984 17,881 SU SU 100,00%
440 31 18,294 18,107 SU SS IM SU 33,33%
102
DiasOpe Sanciones Nota
Graduación NotaCursos
RESULTADOS REAL
% ACIERTOS
SU SS AV IM IN
217 24 18,734 18,632 SU SU 100,00%
261 39 18,477 18,659 SU SU 100,00%
694 129 18,423 17,638 SS SS 100,00%
0 73 18,268 18,277 SU SU 100,00%
83 29 18,519 18,452 SU SU 100,00%
198 39 18,284 18,232 SU SU 100,00%
12 63 18,348 18,144 SU SU 100,00%
69 42 18,211 18,218 SU SS 0,00%
18 59 19,102 19,102 AV AV 100,00%
1116 45 17,679 17,652 SU SS SU 50,00%
273 53 17,226 17,254 SU SU 100,00%
305 61 18,363 17,107 SU SU 100,00%
309 132 17,012 17,615 SU SU 100,00%
505 53 18,421 16,996 SU SS SU 50,00%
282 141 18,289 17,052 SU SU 100,00%
732 9 19,640 19,452 SS IM IM 50,00%
672 33 18,128 18,329 SU AV SU 50,00%
264 26 19,003 18,981 SU SS 0,00%
61,00%
Fuente: Análisis del Autor
Considerando que el modelo puede obtener más de un resultado, se ha tomado en cuenta el
porcentaje en cuanto se logró acertar o no en la especialidad real de la persona; de esto se puede
observar que el porcentaje de aciertos es del 61%, y si aplicamos un criterio más optimista y
damos un 100% si acertó incluso si se tiene más de una opción, entonces el porcentaje de
aciertos llega a un 83,5%, lo cual se compagina con el modelo y criterio de creación que fueron
escogidos para crear el árbol de decisión.
Para analizar ya casos específicos, hemos seleccionado ocho casos:
Los cinco primeros corresponden a oficiales y tripulantes en donde el modelo solo determinó una
especialidad y esta corresponde con la realidad, es decir, una selección al 100% (excepto el caso
de Inteligencia que no tiene ningún caso de selección al 100%, por lo que se seleccionó el más
cercano); mientras que los tres últimos, son casos en los que las personas repitieron el curso, es
decir, fallas en la vida real, pero que el modelo si acertó (solo en un caso al 100%) en la
especialidad escogida finalmente.
Hay que considerar que en la época en la que estas personas ingresaron a curso, el proceso de
selección seguía un esquema exclusivamente voluntario, por lo que no se tiene información de
selecciones realizadas, pero en la siguiente tabla analizaremos algunos factores que pueden
mejorar la comprensión de éxitos y fallos en la selección tomando la muestra mencionada de
ocho personas:
103
Tabla 47. Análisis de casos específicos
CASO GRADO ESPECIA
LIDAD ANÁLISIS
Éxito No 1 Oficial Superficie
Ha tenido un desempeño destacado en la especialidad,
estando entre las primeras antigüedades de su promoción;
fue escogido por el sistema en su misma especialidad al
100%
Éxito No 2 Oficial Submarinista
Ha sido la primera antigüedad en todos los cursos y se ha
destacado dentro de su desempeño a bordo de los
submarinos; el sistema seleccionó su especialidad al 100%
Éxito No 3 Oficial Inteligencia
Ha realizado muchas operaciones de inteligencia durante su
carrera; el sistema lo seleccionó al 50% en su especialidad,
aunque la otra especialidad considerada fue superficie,
siendo esta especialidad en la que también se desempeñó
antes de iniciar el curso de inteligencia, por lo que se
considera un caso de éxito.
Éxito No 4 Tripulante Infante de Marina
Se ha mantenido con antigüedades muy buenas durante su
carrera y muchos días de operación en el terreno; obtuvo
una excelente nota en el curso de especialidad y ha
realizado varios cursos de Infantería de Marina; el sistema lo
seleccionó en su especialidad al 100%
Éxito No 5 Tripulante Aviador Naval
Tuvo una de las más altas notas en el curso de especialidad
y se ha especializado en el área técnica aeronáutica; el
sistema lo seleccionó para la Aviación Naval al 100%
Falla No 1 Oficial Superficie Inició el curso de Aviación Naval y no lo terminó; luego pasó
a Superficie; el sistema lo seleccionó para superficie al 100%
Falla No 2 Oficial Infante de
Marina
Inició el curso de Aviación Naval y no lo terminó; luego pasó
a la Infantería de Marina; si bien el sistema lo seleccionó
para más de una especialidad, no lo seleccionó para
Aviación Naval.
Falla No 3 Oficial Superficie
Inició el curso de Submarinos y no lo terminó; luego pasó a
Superficie; el sistema lo seleccionó para superficie o aviación
naval, no para submarinista.
Fuente: Análisis del Autor
Como se puede corroborar, la selección estimada por el modelo, es bastante cercana a la realidad
de la selección de los cursos realizada por el personal en forma voluntaria, si bien los éxitos
indicados en las dos últimas tablas son solo del 61%, hay que indicar que el modelo nos muestra
en muchos casos más de una posible opción para el personal, encontrándose la especialidad
correcta en las opciones en el 83,5% de lo considerado en el modelo, mostrando que se acerca
bastante a lo esperado.
104
7.1.3. Evaluación de los resultados de la minería de datos en lo que concierne a
criterios de éxito de negocio
En relación a los resultados relacionados a los criterios de éxito del negocio, se ha elaborado la
siguiente tabla en donde se muestra esa relación:
Tabla 48. Tabla de Evaluación del Modelo relacionado a los criterios de éxito del negocio
FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS CRITERIOS DE SELECCIÓN QUE APOYAN EL CRITERIO
DE ÉXITO
SELECCIÓN
DE
PERSONAL
La selección de
personal debe estar
enmarcado en el menor
error posible una vez
aplicado el algoritmo
Menor o igual al 15%
en el análisis.
El modelo generado tiene
instancias clasificadas
correctamente del 86%,
mientras un porcentaje de
incorrectamente clasificadas del
14%, encontrándose dentro del
parámetro esperado de error.
NOTA MÍNIMA
EN CADA
MATERIA
Que cada Oficial o
Tripulante en curso
iguale o supere el
mínimo requerido en
cada materia.
Superar la nota de
16/20 en cada materia;
se establece un
margen de error de +/-
5%
Si bien no se analizó los datos
de las notas de cada materia
para el modelo considerado
para este análisis, este
promedio se encuentra incluido
y superado ampliamente en las
notas de los cursos que se
analizaron.
NOTA MÍNIMA
EN CADA
CURSO
Que cada Oficial o
Tripulante en curso
iguale o supere el
promedio general en
cada curso realizado.
Superar el promedio
general de 16/20; se
establece un margen
de error de +/- 5%
Los resultados analizados de la
nota obtenida en los cursos
tomados en cuenta para este
estudio, muestran que los
valores obtenidos por la
población mantienen varios
rangos, el menor de ellos es
que las notas estén por debajo
o iguales a 17,691, mientras
que en el extremo más alto se
mantienen notas superiores a
18,012, lo que supera
ampliamente el promedio
esperado, superando el valor
considerado.
105
FACTOR CRITERIO DE ÉXITO CARACTERÍSTICAS CRITERIOS DE SELECCIÓN QUE APOYAN EL CRITERIO
DE ÉXITO
CONDUCTA Que su conducta
supere la evaluación de
conducta en un nivel
adecuado al buen
comportamiento.
Superar la evaluación
de 18/20; se establece
un margen de error de
+/- 5%
Si bien las calificaciones
anuales fueron eliminadas por
su casi nulo aporte al análisis,
el valor tomado en cuenta
inicialmente estaba con notas
del personal superior al 19,000
en todos los años, lo que
supera ampliamente al margen
considerado.
EVALUACIÓN
DE
DESEMPEÑO
Que el promedio de la
evaluación del
desempeño de los
Oficiales y Tripulantes
que terminan los
cursos, posterior a un
año de labores sea
adecuado.
Promedio de
desempeño sea igual o
superior al 18/20.
El desempeño global de cada
persona considerada en este
estudio toma en cuenta no solo
un factor, sino los cuatro
factores de los criterios de
selección para demostrar que
este promedio es superado en
casi todos los atributos
analizados, por lo que el
modelo puede ser utilizado
como un medio de selección
adecuado que a la vez evalúe
el desempeño general de cada
aspirante.
Fuente: DIGREH / Análisis del Autor
Como se puede ver en este cuadro, el modelo seleccionado puede ser una buena guía para
apoyar a que se cumplan los criterios de éxito del negocio, sin embargo, se debe indicar
nuevamente que un ensayo totalmente óptimo debe considerar una población de muestra mayor
para verificar los límites considerados para los atributos, y la combinación de estos en los criterios
de selección analizados y producidos en el árbol de decisión con el modelo de algoritmo J48
desarrollado en el programa WEKA.
7.2. Modelos aprobados
El modelo considerado en la última revisión, que cumplió las siguientes modificaciones:
1. Eliminar otros atributos y quedarse inicialmente con cinco atributos: Nota de Graduación,
Nota de Cursos, Calificaciones, Sanciones y Días de Operación.
106
2. Eliminar un atributo adicional: Calificaciones, debido a su poco aporte relativo a la
selección de personal.
3. Modificar cuatro registros del personal de Infantería de Marina por ser valores
demasiado alejados de los valores promedio de la muestra, para que el proceso de
selección sea más eficaz al momento de desarrollar el árbol de decisión.
Una vez procesada la información en el programa WEKA, aplicando árboles de decisión y
seleccionando el algoritmo J48, se produjo un árbol con un valor de instancias correctamente
clasificadas del 86% y consecuentemente, un error del 14%, lo que entra en los parámetros
esperados en los criterios de éxito del negocio, por tanto, se selecciona este procedimiento de
minería de datos para considerar los factores de selección de personal para las áreas críticas de
la Armada.
7.3. Proceso de revisión
El modelo desarrollado debe ser revisado en cuanto a su procedimiento de creación destacando
los factores o consideraciones favorables, aciertos, posibles errores etc, por tanto, se ha
desarrollado la siguiente tabla de análisis:
Tabla 49. Tabla de Revisión del Proceso
No PROCEDIMIENTO CONSIDERACIONES GENERALES
01 Selección de la
metodología
Se revisaron las diferentes metodologías, seleccionando CRISP-
DM como la más aplicable al trabajo a desarrollar.
02 Revisión de los procesos
de selección de la
Armada.
Se analizaron los diferentes procesos de selección para las
especialidades críticas de la Armada considerando todos los puntos
importantes y adecuados en esta selección.
03 Selección de factores de
clasificación
Se seleccionaron los factores a considerar para realizar el análisis y
posterior determinación de los valores, parámetros y procesos de
selección aplicando la Minería de Datos.
04 Análisis de datos Se revisaron las bases de datos de la Dirección General de
Recursos Humanos para determinar una muestra de 100 personas
pertenecientes a estas especialidades y de varias promociones,
para extraer mediante consultas en SQL (principalmente) los datos
necesarios para elaborar las tablas finales.
Se considera necesario para realizar un trabajo más exacto
conformar la muestra con una mayor cantidad de registros del
personal.
05 Preparación de Datos Se realizó la revisión de los datos, con actividades como inclusión o
exclusión de datos, integrar datos y finalmente darle el formato
necesario para que se pueda trabajar en el programa WEKA para
aplicación de la Minería de Datos.
107
No PROCEDIMIENTO CONSIDERACIONES GENERALES
06 Seleccionar técnica de
modelado
Se realizó un análisis de las diferentes técnicas de modelado,
llegando a la conclusión que la mejor técnica corresponde a la
aplicación de árboles de decisión para nuestro trabajo de selección.
07 Aplicación de técnica
seleccionada
Se realizó la carga del archivo en el programa WEKA para la
aplicación de árboles de decisión que fue el seleccionado para
nuestro trabajo de selección.
08 Aplicación de los
diferentes métodos y
selección
Se realizó todas las corridas con todos los métodos existentes para
árboles de decisión y realizando un análisis para determinar el
mejor, seleccionando el método del algoritmo J48.
09 Ajustar parámetros En esta parte se determinó que se debía excluir el atributo de
Calificaciones, por su poco o casi nulo aporte al proceso de
selección, realizando una segunda corrida de datos, luego se
determinó cambiar los valores de cuatro registros de días de
operación del personal de Infantería de Marina para ajustar el
modelo.
Se considera que hubiese sido más adecuado realizar la exclusión
del atributo de calificaciones dentro del proceso de revisión de
datos, aunque en esta parte no estaba claro el aporte real de este
atributo, solo se lo pudo observar una vez que se realizaron las
corridas en el programa WEKA.
10 Evaluar el modelo Se realizó una evaluación del modelo en relación a los criterios de
éxito del negocio y factores de éxito para ver en qué medida
aportan o refuerzan estos parámetros requeridos, observando que
el modelo realiza un aporte (aunque no totalmente directo) a lo
esperado en estos puntos.
Fuente: DIGREH / Análisis del Autor
7.4. Determinación de los próximos pasos
Luego de lo analizado, tanto en la evaluación como en la revisión del proceso seleccionado, se
determinan a continuación los pasos a seguir:
Coordinar con la autoridad competente de la Dirección General de Recursos Humanos
para la ampliación de los registros considerados en la muestra para el análisis, esto es
con la intención de lograr un mejor procesamiento de Minería de Datos para obtener
valores más ajustados del algoritmo de selección.
Aplicar los parámetros obtenidos en una población real de personal que esté por ingresar
a los cursos, a fin de determinar en una prueba de campo la efectividad real del modelo y
los parámetros y rutas de selección del árbol obtenido.
108
Los puntos anteriores muestran que es recomendable terminar el actual proyecto con
estas consideraciones adicionales para mejorar los resultados de aplicación en el
personal e integrar en los sistemas informáticos estos procesos para automatizar la
selección de personal a corto plazo.
7.4.1. Lista de posibles acciones
Las posibles acciones a seguir se detallan a continuación:
1. Continuar con el proyecto actual de Minería de Datos ampliando los registros a una mayor
población para mejorar los parámetros de selección y aplicar los parámetros de selección
a los candidatos actuales a estas especialidades para aplicarlas posteriormente en los
sistemas informáticos existentes.
2. Mantener el actual desarrollo con los parámetros y rutas de selección establecidas y
aplicarlos dentro de las bases de datos para los futuros candidatos y realizar revisiones
periódicas para verificar si el modelo desarrollado es funcional o se debe realizar mayores
ajustes.
7.5. Decisión
La decisión tomada, una vez analizado las opciones existentes y la documentación base, es
tomar la primera opción, es decir continuar con el proyecto actual de Minería de Datos ampliando
los registros a una mayor población para mejorar los parámetros de selección, e incluir
información aplicada a la selección de nuevos candidatos a estas especialidades, para iniciar su
aplicación en los sistemas informáticos existentes.
Esto se determina así porque los parámetros y rutas determinadas servirán para aplicar el
algoritmo en los sistemas informáticos, logrando optimizar de esta manera la selección de
personal.
109
8. FASE VI: DESARROLLO
110
8.1. Desarrollo del plan
Para el desarrollo del plan, deben tomarse las siguientes acciones:
Tabla 50. Tabla de Desarrollo del Plan
No ETAPA DETALLE GENERALIDADES
1 Análisis de los
datos de la Base
de Datos
Revisión de la base de datos
junto a los servidores de la
DIGREH
Se debe revisar la BD para seleccionar
una muestra mayor de la actualmente
considerada
2 Revisión y
estructuración de
los datos
seleccionados
Con la ampliación de los
registros, se debe verificar
formato y compatibilidad de
los datos, completar datos
faltantes y eliminar registros
fuera de rango.
Utilizando el mismo procedimiento ya
aplicado anteriormente, complementando
los nuevos datos a los datos ya
seleccionados
3 Soluciones de
estructura de la
base de datos
Solucionar problemas de
estructura o datos de los
nuevos datos
Proceso similar al anterior para verificar la
idoneidad de los nuevos datos
4 Revisión del
modelo en base a
los nuevos datos.
Aplicar el modelo en la
nueva BD y observar los
resultados obtenidos para
compararlos con el
procedimiento ya existente
Se debe utilizar el mismo modelo y
verificar se encuentren dentro del rango ya
seleccionado; realizar ajustes si es
necesario.
5 Aplicación del
modelo en
sistemas
informáticos
Con el desarrollo del modelo
de árboles de decisión,
realizar una implementación
en los sistemas informáticos
existentes para automatizar
el proceso
Desarrollo en base a los sistemas
existentes para manejo de la base de
datos
Fuente: DIGREH / Análisis del Autor
8.2. Plan de supervisión y mantenimiento
El plan de supervisión y mantenimiento se puede plantear de acuerdo a la siguiente tabla, en
donde se debe tomar en cuenta que se debe establecer el procedimiento para controlar los datos
extraídos o lo que se implemente en los sistemas informáticos, de modo de lograr una supervisión
real de los datos y alimentar con datos útiles de acuerdo a los tiempos a considerar para el
mantenimiento.
111
Tabla 51. Plan de Supervisión y Mantenimiento.
No ACTIVIDAD DETALLE VERIFICACIÓN
1 Revisión periódica
de los datos
La base de datos seleccionada debe revisarse
periódicamente por el administrador para
verificar que se mantenga su estructura y no se
hayan perdido, dañado o modificado datos
El intervalo debe ser
establecido en base al
tamaño de la muestra.
2 Ampliación
progresiva y
eliminación de
datos
Nueva información está continuamente
llegando a la base de datos principal, esto debe
ser aprovechado para mejorar la muestra,
tomar nuevos datos de ella y eliminar los
registros ya no adecuados (x ejemplo, personal
que sale con la baja)
Esta revisión debería
realizarse cada año con
los nuevos datos de
personal existente.
3 Comparación de
parámetros
anteriores y
nuevos
Al realizar la actualización de datos, se debe
comparar los parámetros nuevos con los
anteriores para detectar variaciones pequeñas
o grandes en los parámetros de selección
Las variaciones no
deberían ser demasiado
drásticas, se debe
revisar bien si esto
ocurre.
4 Identificación y
corrección de
errores
En general, se debe revisar periódicamente los
datos y el algoritmo para identificar errores; una
buena guía corresponde a que los parámetros
seleccionados no se ajustan a la realidad
presente en las selecciones realizadas
posteriormente a la aplicación del algoritmo.
Realizar la verificación
cada año, luego del
proceso de selección
correspondiente.
6 Informes Realizar informes de cada verificación,
actualización o cambio realizado
Presentación del
informe
Fuente: DIGREH / Análisis del Autor
8.3. Informe definitivo de producto
El informe final del proceso de minería de datos, se encuentra para revisión en el anexo D
“Informe Final”
112
CONCLUSIONES
1) La revisión de los procesos actuales de selección de personal aplicados a las cinco
especialidades críticas de la Armada y relacionando estos a la Minería de Datos,
verificando la técnica, metodología, y plan desarrollado, permitió identificar los
procedimientos relacionados a la selección de personal, congruentes para el
procesamiento de un modelo de minería de datos.
2) Los procesos de la metodología CRISP-DM aplicados a los datos inicialmente
seleccionados, permitió compilar, filtrar y adecuar estos datos para su aplicación y
manipulación efectiva en la aplicación para Minería de Datos WEKA y el posterior análisis,
previo el desarrollo del árbol de decisión final.
3) Los datos seleccionados, luego de aplicarles la técnica de árboles de decisión, utilizando
el algoritmo J48 bajo el correspondiente análisis en la aplicación WEKA, permitió
desarrollar un modelo de minería de datos, determinando parámetros de selección de los
atributos para su aplicación dentro de los procesos de selección de la Armada.
4) Las rutas de clasificación y sus valores correspondientes dentro del algoritmo del árbol de
decisión definitivo, permiten su aplicación efectiva dentro de la base de datos de la
Dirección General de Recursos Humanos, en el proceso de selección de personal a los
cursos de especialidades.
5) Las pruebas realizadas mediante el estudio de casos, permiten comprobar que el
algoritmo cumple con los objetivos esperados para este trabajo.
113
RECOMENDACIONES
1) Considerar los procedimientos relacionados a la selección de personal para las cinco
especialidades críticas de la Armada, como estándar para la aplicación del modelo de
minería de datos en los procesos de selección de personal de la Armada.
2) Considerar a los datos filtrados como los registros estándar para la aplicación efectiva del
modelo de minería de datos y como componente de los procesos correspondientes de
selección de personal en la Armada.
3) Recomendar la aplicabilidad del modelo de minería de datos para mejorar los procesos
de selección de la Armada, en las especialidades de Superficie, Submarinos, Aviación
Naval, Infantería de Marina e Inteligencia.
4) Aplicar el modelo de Minería de Datos desarrollado en los servidores de la Base de Datos
de la Dirección General de Personal para la selección futura del personal designado a los
cursos por especialidades.
5) Continuar con el desarrollo del proyecto actual ampliando los registros a una mayor
población para mejorar los parámetros de selección
114
BIBLIOGRAFÍA
Abel, F.; Herder, E. y Krause, D. (2011) Extraction of Professional Interests from Social
Web Profiles. Girona (España) Web Information System (WIS) publicado en URL:
http://www.wis.ewi.tudelft.nl/aum2011/paper9.pdf
Alberto, A. R. I. Weka como herramienta de data mining. Disponible en:
http://www.itsciudadserdan.edu.mx/Articulos%20Investigacion/WEKA%20COMO%20H
ERRAMIENTA%20DE%20DATA%20MINING/WEKA%20COMO%20HERRAMIENTA
%20DE%20DATA%20MINING.pdf
Césari M. Aprendizaje automático con Weka. Área de Ciencias de la Computación e
Inteligencia Artificial de la Universidad de Vigo. Disponible en URL:
http://ccia.ei.uvigo.es/docencia/MRA/practicas/MATERIAL_WEKA.pdf
Chapman, P; Clinton J; Kerber R; Khabaza, T; Reinartz T; Shearer, C y Wirth R. (2007).
Metodología CRISP-DM para minería de datos. DATAPRIX. Publicado en URL:
http://www.dataprix.com/es/metodolog-crisp-dm-para-miner-datos
Chiavenato I., Villamizar G y Aparicio J. (1983). Administración de recursos humanos. Vol.
2. McGraw-Hill.
Conolly T y Begg C (2005). Sistemas de Bases de Datos, Un enfoque práctico para
diseño, implementación y gestión, Cuarta Edición. Madrid. Pearson Educación S.A.
Constitución Política de la República del Ecuador; aprobada por la Asamblea
Constituyente el 24 de julio de 2008
Dessler, G. (2001). Administración de personal. México D.F. Octava Edición. Pearson
Educación.
Infante, M; Abreu, Y; Delgado, M y Infante, O. (2010), Minería tecnológica para el análisis
de oportunidades de publicaciones en la universidad. Marianao. Revista CENIC,
publicado en URL: http://revista.cnic.edu.cu/revistaCB/sites/default/files/articulos/CB-
2010-4-CB-081.pdf
Jiménez, M. G., & Álvarez, A. (2010). Análisis de datos en WEKA–pruebas de
selectividad. España: Universidad Carlos III. Disponible en URL: http://www. it. uc3m.
es/jvillena/irc/practicas/06-07/28. pdf.
Kantardzic, M. (2011). DATA MINING: Concepts, Models, Methods and Alghorithms.
Segunda Edición. New Jersey. WILEY - IEEE Press, John Wiley & Sons, Inc., Hoboken
Ley Orgánica de la Defensa Nacional, publicada en el Registro Oficial No 004 del 19 de
enero de 2007 y su última modificación el 28 de septiembre del 2009
López, C y González, D. (2008) Minería de Datos: Técnicas y Herramientas, Primera
Edición Segunda Reimpresión. Madrid. Thomson Ediciones Paraninfo, S.A.
115
Machine Learning Group at the University of Waikato. (2015). Weka 3: Data Mining
Software in Java. Disponible en URL: http://www.cs.waikato.ac.nz/~ml/weka/ [consulta el
02 de mayo de 2015]
López, M. J. N. (1999). La selección de personal: guía práctica para directivos y mandos
de las empresas. FC Editorial.
Moine, J; Haedo, A y Gordillo S. (2011) Estudio comparativo de metodologías para
minería de datos. Buenos Aires. XIII Workshop de Investigadores en Ciencias de la
Computación. Red de Universidades con Carreras en Informática (RedUNCI), publicado
en URL: http://sedici.unlp.edu.ar /bitstream/handle/10915/20034/
Documento_completo.pdf?sequence=1
Moine, J. M. (2013). Metodologías para el descubrimiento de conocimiento en bases de
datos: un estudio comparativo (Tesis Doctoral). La Plata. Universidad Nacional de la Plata
- Facultad de Informática.
Molina, J. y García, J. (2006) Técnicas de Análisis de Datos. Madrid. Universidad Carlos
III. Publicado en URL: http://www.giaa.inf.uc3m.es/docencia/II/ADatos/apuntesAD.pdf
Morate, D. G. (2008). Manual de Weka. Disponible a través de e-mail
diego.garcia.morate@ gmail.com o disponible en URL:
http://www.metaemotion.com/diego.garcia.morate/ download/weka.pdf
Pardo, S; Coronel, J.E., Bertone R, Thomas P. (2013) Gestión del Conocimiento: Un
enfoque aplicado en la Administración Pública. Buenos Aires, Instituto de Investigación
en Informática LIDI - Facultad de Informática, Universidad Nacional de La Plata –
Argentina. XVIII Congreso Argentino de Ciencias de la Computación. Publicado en URL:
http://sedici.unlp.edu.ar/handle/10915/31302
Rodrigues, A. y Dotto, S (2013). A Model for Recommending Specialization Courses
Based on the Professional Profile of Candidate. Niza. IARIA conference, eKNOW 2013 :
The Fifth International Conference on Information, Process, and Knowledge Management,
publicado en URL
http://www.thinkmind.org/index.php?view=article&articleid=eknow_2013_7_40_60173
Silíceo, A. (2006). Capacitación y desarrollo de personal. Cuarta Edición. México D.F.
Editorial Limusa.
Sivaram, N y Ramar, K. (2010) Applicability of Clustering and Classification Algorithms for
Recruitment Data Mining. Kovilpatti. International Journal of Computer Applications (0975
– 8887) Volume 4 – No 5.
Strohmeier S. (2013). Domain driven data mining in human resource management: A
review of current research. Philadelphia. ELSEVIER Ltd. Revista “Expert Systems with
Applications” Volumen 40 Issue 7. Publicado en URL: www.elsevier.com
116
Strohmeier, S y Piazza, F. (2013) Domain driven data mining in human resource
management: A review of current research. Saarbruecken. ELSEVIER - Expert Systems
with Applications. journal homepage: www.elsevier.com/locate/eswa
Witten, I.; Frank, E. y Hall, M. (2011). DATA MINING: Practical Machine Learning Tools
and Techniques, Tercera Edición. Maryland. ELSEVIER Inc., Morgan Kaufmann
Publishers
Vieria, L; Ortiz, L y Ramírez, S. (2009) Introducción a la Minería de Datos. Rio de Janeiro.
E-papers Servicos Editoriais Ltda.
Vizcaíno, P. (2008). Aplicación de Técnicas de Inducción de Árboles de Decisión a
problemas de clasificación mediante el uso de WEKA (WAIKATO ENVIRONMENT FOR
KNOWLEDGE ANALYSIS). Colombia: Fundación Universitaria Konrad Lorenz.
Disponible en URL: http://www.konradlorenz.edu.co/images/stories/
suma_digital_sistemas/2009_01/final_paula_andrea.pdf
117
ANEXOS
Anexo “A” Organigramas funcionales y requisitos para cada función.
Anexo “B” Reporte de requerimientos que debe cubrir el modelo de minería
Anexo “C” Datos Iniciales Recopilados para el Trabajo de Minería de Datos.
Anexo “D” Informe Final
A - 1
ANEXO “A”
ORGANIGRAMAS FUNCIONALES Y REQUISITOS PARA CADA FUNCIÓN.
En su estructura orgánica, La Dirección General del Talento Humano, en donde se materializa este proceso, se encuentra ubicado bajo el mando del Estado Mayor de la Armada, como se muestra en el siguiente gráfico:
Figura A-1. Organigrama básico General por Procesos de la Armada
Fuente: Estructura Orgánica por Procesos de la Armada del Ecuador
La Misión primordial de la Dirección General del Talento Humano es gestionar el talento
humano de la Armada del Ecuador, mediante la administración del Personal Militar y Civil y
el fortalecimiento del clima laboral con la finalidad de contribuir al direccionamiento
estratégico, al desarrollo de las capacidades navales, la seguridad integral de los espacios
acuáticos y el apoyo al desarrollo marítimo Nacional.
Está representado por el Director/a General de Talento Humano, que es el Sr Contralmirante
Fernando Noboa Rodas.
La principal responsabilidad es dirigir el sistema integrado de desarrollo del talento humano,
de conformidad a las normas legales y técnicas expedidas por el Ministerio de Relaciones
Laborales y aquellas inherentes al ámbito naval, así como proponer directrices internas para
el fortalecimiento de clima laboral en los ámbitos de bienestar, salud y vivienda; pero dentro
del área de estudio, una de las responsabilidades también muy importante es estructurar la
planificación orgánica y numérica del talento humano institucional, desarrollar el plan de
carrera del personal, evaluar el desempeño del personal, desarrollar el plan de capacitación,
A - 2
coordinar el plan de relevos y sucesión del personal y administrar los procesos de trasbordos,
movimientos y ascensos de personal militar.
Dentro de los Productos que este Proceso entrega, para propósitos de este trabajo, debemos
destacar los siguientes:
a) Propuesta de Plan de Carrera.
b) Informe de resultados de la evaluación del desempeño organizacional.
c) Plan de capacitación del personal.
d) Plan de relevos y sucesión del personal.
e) Ordenes Generales de trasbordos y movimientos de personal.
f) Ordenes Generales de ascensos de personal militar.
Para lograr con todos los productos o entregables de este Proceso, la Dirección General del
Talento Humano tiene a su cargo tres Departamentos: (Oficiales, Tripulantes y UATH), el
Departamento de Oficiales, tiene como función principal la de administrar la carrera
profesional de los oficiales de la Armada mediante la Planificación, Evaluación y Control de
su carrera Naval con el fin de satisfacer las necesidades Institucionales, estructurando planes
de desarrollo administrativo, proyectos y procesos a ser ejecutados; su primera división, la
de Planificación, Clasificación y selección de Recursos Humanos, es la encargada de
planificar los requerimientos de personal de Oficiales a corto, mediano y largo plazo, en la
distribución orgánica de los puestos y realizar la selección de personal de oficiales en base
a perfiles y competencias para los diferentes requerimientos Institucionales.
Es esta división la que se encarga de seleccionar al personal de Oficiales para los cursos, y
si bien pareciera que el Departamento de Tripulantes y Grumetes no tuviera estas
competencias, lo que sucede es que estos procesos se realizan bajo la coordinación del
Departamento de Oficiales, pero aplicado también a los señores tripulantes candidatos.
PROCESO DE SELECCIÓN PARA LAS ESPECIALIDADES DE ARMA (CURSOS DE PERFECCIONAMIENTO)
1. Cada año, se determina los porcentajes en los que se debe admitir al personal de
Oficiales y Tripulantes en las especialidades de arma, por ejemplo:
Superficie 60 %
Submarinos 10%
Aviación Naval 10 %
Infantería de Marina 20 %
2. De acuerdo a estos porcentajes, se determina la cantidad de Oficiales y Tripulantes
que son requeridos para cada especialidad en cada una de las promociones, por
ejemplo (para una promoción de 20 oficiales de arma):
Superficie 12 cupos
A - 3
Submarinos 2 cupos
Aviación Naval 2 cupos
Infantería de Marina 4 cupos
3. Los Oficiales o Tripulantes de la promoción o promociones consideradas, son
llamados para que, de acuerdo a los cupos existentes, los de mejor antigüedad
escojan la especialidad que desean en forma voluntaria.
4. Cuando se llena el cupo de una de las especialidades, los siguientes en escoger
deben hacerlo solo con las disponibles; y si no queda la especialidad deseada por el
Oficial o Tripulante o solo queda disponible una especialidad, tienen necesariamente
que ingresar en la especialidad que todavía tiene cupos disponibles.
PERFILES DEL PERSONAL A SER SELECCIONADO
PERFIL PARA SUPERFICIE
No es necesario ser voluntario, todos los Oficiales y Tripulantes graduados se los forma con
la orientación hacia el embarque a las Unidades de Superficie, siendo también necesario que
tenga una salud adecuada y capacidad física normal.
FACTORES DE ÉXITO EN SUPERFICIE
El éxito para culminar el Curso de Superficie se basa en la capacidad de estudio y dedicación
del alumno y en su afinidad hacia el embarque en buques.
PERFIL PARA SUBMARINOS
Es necesario que sea voluntario; por sus características, se requiere que el Oficial o
Tripulante que opte por esta especialidad tenga buena salud especialmente en su sistema
otorrino (nariz – oído – boca) en el sentido de que debe soportar los cambios repentinos de
presión; también es necesario que soporte el encierro (que no sufra de claustrofobia, de ahí
en parte su carácter voluntario).
FACTORES DE ÉXITO PARA SUBMARINOS
El éxito para culminar el Curso de Submarinos se basa en la capacidad de estudio y
dedicación del alumno, también en su habilidad para controlar el submarino (para Oficiales)
y habilidad para operar en forma eficiente y segura los equipos y sistemas (Oficiales y
Tripulantes); un factor de éxito adicional, consiste en que por su propia naturaleza, el
submarinista debe ser una persona sociable y colaborativa al máximo y tener una buena
afinidad para el embarque en un submarino.
A - 4
PERFIL PARA AVIACIÓN NAVAL
Es necesario que sea voluntario; Se requiere que tenga buena salud, soporte variaciones de
presión, rápida habilidad mental y buena visión (Oficiales) y capacidad para soportar el
ambiente en cabinas cerradas y vuelo en grandes alturas y capacidad de reacción ante
emergencias (Oficiales y Tripulantes). Aquí también se considera que, debido al espacio en
las cabinas, existe una estatura máxima para poder ser parte de la Aviación Naval.
FACTORES DE ÉXITO PARA AVIACIÓN NAVAL
El éxito para culminar el Curso Básico de Aviación se basa en la capacidad de estudio y
dedicación del alumno, también es importante tener una buena habilidad para operar las
aeronaves (Oficiales) y habilidad para operar, mantener y reparar los equipos de las
aeronaves y helicópteros (tripulantes); es importante que tenga afinidad a la aviación en
general.
PERFIL PARA INFANTERÍA DE MARINA
Es necesario que sea voluntario; Se requiere que tenga buena salud y sobre todo buena
condición física y capacidad de liderazgo y fortaleza de carácter.
FACTORES DE ÉXITO PARA INFANTERÍA DE MARINA
El éxito para culminar el Curso Básico de Infantería de Marina se basa en la capacidad de
estudio, dedicación y preparación física del alumno; también es importante un carácter firme
y capacidad de reacción, arrojo y liderazgo.
PERFIL PARA INTELIGENCIA
No es necesario que sea voluntario, sin embargo, por las características de sus funciones,
se requiere un análisis previo de los antecedentes y factores psicológicos de los candidatos;
También se requiere que tenga buena salud y buena condición física.
FACTORES DE ÉXITO PARA INTELIGENCIA
El éxito para culminar el Curso de Inteligencia se basa en la capacidad de estudio, dedicación
y condiciones físicas adecuadas del alumno; también es importante tener capacidad de
discreción y confiabilidad.
B - 1
ANEXO “B”
REPORTE DE REQUERIMIENTOS QUE DEBE CUBRIR EL MODELO DE MINERÍA
En base a los perfiles para cada especialidad, se establecen los requisitos considerados para
las pruebas de ingreso a cada uno de los cursos de perfeccionamiento:
Tabla B-1. Requisitos de pruebas que deben cumplir los candidatos a las diferentes especialidades de
Arma e Inteligencia
REQUISITOS SUPERFICIE SUBMARINOS AVIACIÓN
NAVAL INFANTERÍA DE MARINA
INTELI GENCIA
VOLUNTARIO NO Obligatorio SI SI SI SI
FICHA MÉDICA BÁSICA SI NO NO NO SI
FICHA MÉDICA COMPLETA
NO SI SI SI NO
PRUEBAS FÍSICAS NO NO NO SI SI
PRUEBA DE CÁMARA HIPERBÁRICA
NO SI NO NO NO
PRUEBAS DE VISIÓN Y REFLEJOS
NO NO SI NO NO
PRUEBAS PSICOLÓGICAS
NO NO NO NO SI
INVESTIGACIÓN ANTECEDENTES
NO NO NO NO SI
EXAMEN DE CONOCIMIENTOS
NO NO NO NO SI
ESTATURA NO Requerido NO Requerido Máximo 1,90 NO Requerido NO Requerido
Fuente: DIGREH
Sin embargo, el modelo de Minería de Datos a utilizar, no debe considerar estas pruebas ya
que estas se realizan después de la selección; considerando esto, los valores requeridos se
detallan en la siguiente tabla:
Tabla B-2. Requerimientos que debe cumplir el Modelo de Minería de Datos para las diferentes
especialidades de Arma e Inteligencia
PARÁMETROS PARA EL
MODELO DE MD
PARA SELECCIÓN
INICIAL
SUPERFICIE
SUBMA RINOS
AVIACIÓN NAVAL
INFANTERÍA DE MARINA
INTELI GENCIA
Operaciones cumplidas en el área de la especialidad
Días de navegación cumplidas por el candidato acumuladas
Días de Navegación en buques de superficie
Horas de Inmersión a bordo de los submarinos
Horas de vuelo a bordo de aeronaves o helicópteros
Días de operación en el terreno y saltos de paracaídas
Días de operación en actividades de inteligencia
Sanciones Cantidad de días de arresto acumulados
Cantidad de días de arresto registradas por el personal
Nota de Graduación
Registrado en la Escuela Naval o de Grumetes
Registrado en la Escuela Naval o Escuela de Grumetes
B - 2
PARÁMETROS PARA EL
MODELO DE MD
PARA SELECCIÓN
INICIAL
SUPERFICIE
SUBMA RINOS
AVIACIÓN NAVAL
INFANTERÍA DE MARINA
INTELI GENCIA
Nota de Cursos
Curso Fase Común (oficiales) o de Tecnólogo (tripulantes)
Notas obtenidas en los cursos de perfeccionamiento o de ascenso
Fuente: DIGREH
Con estos parámetros iniciales para el modelo, se pueden considerar formar la estructura
del árbol de decisión para aplicarlo a un primer grupo ejemplo (que incluye casos de éxito y
fracaso), en base a los resultados, se podrá determinar los parámetros ajustados al árbol
para optimizar el proceso de selección.
C- 1
ANEXO “C”
DATOS INICIALES RECOPILADOS PARA EL TRABAJO DE MINERÍA DE DATOS
No GRADO ESP GRADUA CION
CURSO DE ASCENSO (BÁSICO)
NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR
NOTA ANT CALIF 2000
CALIF 2010
DÍAS ARRESTO
DÍAS OPE
1 CPFG SU 17.649 BÁSICO DE SUPERFICIE 18.915 1 ADMINISTRACIÓN NAVAL 19.293 3 ESTADO MAYOR 19.215 3 19.577 19.860 6 26 2 CPFG IM 17.611 INFANTERÍA DE MARINA BÁSICO 18.439 6 ADMINISTRACIÓN NAVAL 19.278 4 ESTADO MAYOR 19.346 1 19.689 19.810 13 316 3 CPFG AV 16.836 AVIACIÓN NAVAL BÁSICO 17.930 1 ADMINISTRACIÓN NAVAL 18.951 8 ESTADO MAYOR 19.144 5 19.944 19.910 5 374 4 CPFG SU 16.745 BÁSICO DE SUPERFICIE 17.590 3 ADMINISTRACIÓN NAVAL 18.954 7 ESTADO MAYOR 18.866 8 19.809 20.000 8 764 5 CPFG AV 16.868 AVIACIÓN NAVAL BÁSICO 17.860 2 ADMINISTRACIÓN NAVAL 18.918 10 ESTADO MAYOR 19.028 6 19.575 19.920 25 698 6 CPFG SU 16.437 BÁSICO DE SUPERFICIE 18.376 4 ADMINISTRACIÓN NAVAL 18.813 11 ESTADO MAYOR 19.218 2 19.845 20.000 16 213 7 CPFG IM 16.490 INFANTERÍA DE MARINA BÁSICO 18.400 8 ADMINISTRACIÓN NAVAL 18.375 13 ESTADO MAYOR 18.886 7 19.719 20.000 7 648 8 CPFG AV 16.248 AVIACIÓN NAVAL BÁSICO 17.320 6 ADMINISTRACIÓN NAVAL 18.645 12 ESTADO MAYOR 19.189 4 19.638 19.960 17 429 9 CPFG SS 17.156 SUBMARINOS BÁSICO 17.931 3 ADMINISTRACIÓN NAVAL 18.94 4 ESTADO MAYOR 19.193 1 19.182 19.966 0 313 10 CPFG IN 17.103 BÁSICO DE SUPERFICIE 18.084 3 ADMINISTRACIÓN NAVAL 18.587 14 ESTADO MAYOR 19.076 3 19.450 19.516 11 304 11 CPFG SS 17.011 SUBMARINOS BÁSICO 18.588 2 ADMINISTRACIÓN NAVAL 18.798 6 ESTADO MAYOR 19.135 2 19.276 19.930 5 346 12 CPFG SU 16.963 BÁSICO DE SUPERFICIE 17.845 5 ADMINISTRACIÓN NAVAL 18.677 12 ESTADO MAYOR 18.788 6 19.550 19.825 4 115 13 CPFG IM 16.674 INFANTERÍA DE MARINA BÁSICO 18.152 6 ADMINISTRACIÓN NAVAL 18.743 7 ESTADO MAYOR 18.983 4 19.727 19.810 10 510 14 CPFG IM 16.562 INFANTERÍA DE MARINA BÁSICO 18.335 4 ADMINISTRACIÓN NAVAL 18.531 16 ESTADO MAYOR 18.781 8 19.725 19.960 6 766 15 CPFG SU 16.371 BÁSICO DE SUPERFICIE 17.531 10 ADMINISTRACIÓN NAVAL 18.198 21 ESTADO MAYOR 18.878 5 19.537 20.000 14 1002 16 CPFG AV 16.398 AVIACIÓN NAVAL BÁSICO 17.480 4 ADMINISTRACIÓN NAVAL 18.391 18 ESTADO MAYOR 18.498 11 19.843 19.955 10 127 17 CPFG AV 15.969 AVIACIÓN NAVAL BÁSICO 17.340 5 ADMINISTRACIÓN NAVAL 18.688 10 ESTADO MAYOR 18.73 9 19.386 19.860 10 618 18 CPFG SU 15.645 BÁSICO DE SUPERFICIE 17.832 6 ADMINISTRACIÓN NAVAL 18.332 19 ESTADO MAYOR 18.788 7 20.000 19.532 25 766 19 CPFG SU 15.609 BÁSICO DE SUPERFICIE 17.569 9 ADMINISTRACIÓN NAVAL 18.446 17 ESTADO MAYOR 18.511 10 19.438 19.581 22 597 20 CPFG AV 17.422 AVIACIÓN NAVAL BÁSICO 18.122 1 ADMINISTRACIÓN NAVAL 19.236 1 ESTADO MAYOR 19.265 1 19.668 19.768 3 543 21 CPFG SS 17.127 SUBMARINOS BÁSICO 18.916 1 ADMINISTRACIÓN NAVAL 19.209 2 ESTADO MAYOR 19.144 4 19.820 19.940 3 729 22 CPFG SU 17.045 BÁSICO DE SUPERFICIE 18.308 4 ADMINISTRACIÓN NAVAL 19.118 5 ESTADO MAYOR 19.131 5 19.930 19.769 2 1031 23 CPFG IN 17.042 BÁSICO DE SUPERFICIE 18.461 1 ADMINISTRACIÓN NAVAL 19.148 3 ESTADO MAYOR 19.073 7 19.962 19.720 0 338 24 CPFG AV 17.274 AVIACIÓN NAVAL BÁSICO 17.592 4 ADMINISTRACIÓN NAVAL 18.65 20 ESTADO MAYOR 19.053 10 19.285 19.940 10 685 25 CPFG SU 16.912 BÁSICO DE SUPERFICIE 17.935 11 ADMINISTRACIÓN NAVAL 18.897 13 ESTADO MAYOR 18.931 16 19.590 20.000 4 854 26 CPFG IM 16.941 INFANTERÍA DE MARINA BÁSICO 18.390 3 ADMINISTRACIÓN NAVAL 19.065 6 ESTADO MAYOR 19.215 3 19.830 20.000 9 494 27 CPFG SU 16.829 BÁSICO DE SUPERFICIE 17.948 10 ADMINISTRACIÓN NAVAL 18.908 11 ESTADO MAYOR 18.943 14 19.535 19.460 15 252 28 CPFG SS 16.775 SUBMARINOS BÁSICO 17.853 4 ADMINISTRACIÓN NAVAL 18.703 17 ESTADO MAYOR 18.974 12 19.919 19.550 3 309 29 CPFG SU 16.585 BÁSICO DE SUPERFICIE 18.001 9 ADMINISTRACIÓN NAVAL 18.98 7 ESTADO MAYOR 19.004 11 19.650 19.760 4 125 30 CPFG AV 16.898 AVIACIÓN NAVAL BÁSICO 17.676 3 ADMINISTRACIÓN NAVAL 18.501 25 ESTADO MAYOR 19.257 2 19.580 19.990 7 690 31 CPFG IN 16.722 BÁSICO DE SUPERFICIE 17.625 19 ADMINISTRACIÓN NAVAL 18.926 10 ESTADO MAYOR 18.92 17 19.063 19.560 7 79 32 CPFG AV 16.208 AVIACIÓN NAVAL BÁSICO 17.479 6 ADMINISTRACIÓN NAVAL 18.691 18 ESTADO MAYOR 19.07 9 19.679 19.611 2 320
C- 2
No GRADO ESP GRADUA CION
CURSO DE ASCENSO (BÁSICO)
NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR
NOTA ANT CALIF 2000
CALIF 2010
DÍAS ARRESTO
DÍAS OPE
33 CPFG IN 16.261 BÁSICO DE SUPERFICIE 18.202 5 ADMINISTRACIÓN NAVAL 18.943 9 ESTADO MAYOR 18.917 18 19.448 19.410 25 144 34 CPFG SS 16.030 SUBMARINOS BÁSICO 17.565 5 ADMINISTRACIÓN NAVAL 18.901 12 ESTADO MAYOR 18.964 13 19.326 19.930 2 237 35 CPFG SU 16.328 BÁSICO DE SUPERFICIE 17.886 12 ADMINISTRACIÓN NAVAL 18.354 27 ESTADO MAYOR 18.942 15 19.405 19.680 17 1082 36 CPFG IN 16.238 BÁSICO DE SUPERFICIE 17.800 14 ADMINISTRACIÓN NAVAL 18.622 22 ESTADO MAYOR 19.072 8 19.500 19.750 5 296 37 CPFG SU 16.028 BÁSICO DE SUPERFICIE 18.120 3 ADMINISTRACIÓN NAVAL 18.79 14 ESTADO MAYOR 19.087 6 19.457 19.940 14 865 38 CPFG IM 16.337 INFANTERÍA DE MARINA BÁSICO 18.276 5 ADMINISTRACIÓN NAVAL 18.216 28 ESTADO MAYOR 18.696 19 19.279 19.667 64 452 39 SUBP SU 17.190 SU OPERACIONES CLASE A 19.032 2 SU OPERACIONES CLASE B 18.722 2 MANDO Y LIDERAZGO 19.085 6 19.860 19.720 6 80 40 SUBP SS 16.070 SS CUBIER (MANIOBRAS) CLASE A 19.039 1 CUBIERTA (MANIOBRAS) CLASE B 17.968 2 MANDO Y LIDERAZGO 17.03 49 20.000 19.353 55 214 41 SUBP IM 14.500 INFANTERÍA DE MARINA CLASE A 18.629 6 INFANTERÍA DE MARINA CLASE B 18.593 5 MANDO Y LIDERAZGO 18.725 12 19.805 19.830 54 874 42 SUBP SU 16.430 SU CUBIER (MANIOBRAS) CLASE A 18.561 7 CUBIERTA (MANIOBRAS) CLASE B 18.051 8 MANDO Y LIDERAZGO 16.43 40 19.280 19.451 71 385 43 SUBP SU 16.210 SU CUBIER (MANIOBRAS) CLASE A 18.149 19 CUBIERTA (MANIOBRAS) CLASE B 18.299 10 MANDO Y LIDERAZGO 16.38 27 19.860 19.620 38 177 44 SUBP SU 15.100 SU CUBIER (MANIOBRAS) CLASE A 18.241 13 CUBIERTA (MANIOBRAS) CLASE B 17.978 12 MANDO Y LIDERAZGO 16.24 47 19.940 19.519 103 550 45 SUBP SU 15.720 SU ARMAMENTO CLASE A 18.308 13 SU ARMAMENTO CLASE B 18.039 14 MANDO Y LIDERAZGO 18.272 42 19.941 19.780 35 66 46 SUBP IM 15.400 INFANTERÍA DE MARINA CLASE A 18.643 4 INFANTERÍA DE MARINA CLASE B 18.464 6 MANDO Y LIDERAZGO 18.694 17 19.810 20.000 16 653 47 SUBP IM 15.800 INFANTERÍA DE MARINA CLASE A 18.121 10 INFANTERÍA DE MARINA CLASE B 18.396 7 MANDO Y LIDERAZGO 18.532 18 19.960 19.860 41 569 48 SUBP IM 15.200 INFANTERÍA DE MARINA CLASE A 18.175 8 INFANTERÍA DE MARINA CLASE B 18.028 12 MANDO Y LIDERAZGO 18.273 43 19.520 19.753 104 241 49 SUBP IM 15.300 INFANTERÍA DE MARINA CLASE A 18.719 2 INFANTERÍA DE MARINA CLASE B 18.534 3 MANDO Y LIDERAZGO 18.87 8 20.000 19.625 52 391 50 SUBP IN 16.300 INFANTERÍA DE MARINA CLASE A 18.109 11 INFANTERÍA DE MARINA CLASE B 18.201 17 MANDO Y LIDERAZGO 17.989 28 19.540 19.630 189 1051 51 SUBP IM 14.400 INFANTERÍA DE MARINA CLASE A 17.869 15 INFANTERÍA DE MARINA CLASE B 18.062 18 MANDO Y LIDERAZGO 17.912 38 19.913 19.650 69 1764 52 SUBP IM 14.000 INFANTERÍA DE MARINA CLASE A 18.539 7 INFANTERÍA DE MARINA CLASE B 18.414 9 MANDO Y LIDERAZGO 18.421 20 19.880 19.580 77 552 53 SUBP IM 15.697 INFANTERÍA DE MARINA CLASE A 17.984 12 INFANTERÍA DE MARINA CLASE B 17.805 15 MANDO Y LIDERAZGO 18.065 54 19.550 19.525 151 672 54 SUBP IM 16.500 INFANTERÍA DE MARINA CLASE A 18.721 1 INFANTERÍA DE MARINA CLASE B 16.789 1 MANDO Y LIDERAZGO 18.872 104 19.890 19.790 121 213 55 SUBP IM 15.300 INFANTERÍA DE MARINA CLASE A 17.770 17 INFANTERÍA DE MARINA CLASE B 17.647 19 MANDO Y LIDERAZGO 17.896 78 19.913 20.000 90 977 56 SUBP IN 16.733 INFANTERÍA DE MARINA CLASE A 18.418 5 INFANTERÍA DE MARINA CLASE B 18.533 4 MANDO Y LIDERAZGO 18.368 10 19.950 20.000 8 991 57 SUBP SU 17.180 SU MOTORISTA CLASE A 18.834 3 SU MOTORISTA CLASE B 18.398 8 MANDO Y LIDERAZGO 18.43 17 20.000 19.630 20 241 58 SUBP SU 16.780 SU MOTORISTA CLASE A 18.133 51 SU MOTORISTA CLASE B 17.981 14 MANDO Y LIDERAZGO 18.278 51 19.590 19.964 16 581 59 SUBP IM 16.141 INFANTERÍA DE MARINA CLASE A 18.251 6 INFANTERÍA DE MARINA CLASE B 18.212 5 MANDO Y LIDERAZGO 18.165 30 19.300 19.870 39 600 60 SUBP SU 17.440 SU OPERACIONES CLASE A 18.455 12 SU OPERACIONES CLASE B 18.121 6 MANDO Y LIDERAZGO 18.552 33 19.749 19.550 32 690 61 SUBP IM 16.639 INFANTERÍA DE MARINA CLASE A 19.703 1 INFANTERÍA DE MARINA CLASE B 18.533 3 MANDO Y LIDERAZGO 18.764 9 19.510 20.000 84 678 62 SUBP SU 16.920 SU ARMAMENTO CLASE A 19.054 4 SU ARMAMENTO CLASE B 18.435 3 MANDO Y LIDERAZGO 19.179 14 19.242 19.510 27 366 63 SUBP IM 16.465 INFANTERÍA DE MARINA CLASE A 17.916 18 INFANTERÍA DE MARINA CLASE B 17.811 12 MANDO Y LIDERAZGO 18.068 68 19.710 19.910 33 653 64 SUBP IM 17.459 INFANTERÍA DE MARINA CLASE A 17.853 20 INFANTERÍA DE MARINA CLASE B 17.815 16 MANDO Y LIDERAZGO 17.874 67 19.520 19.990 41 411 65 SUBP SU 16.600 SU MOTORISTA CLASE A 17.843 74 SU MOTORISTA CLASE B 17.736 24 MANDO Y LIDERAZGO 17.888 74 19.895 19.090 44 63 66 SUBP IM 16.500 INFANTERÍA DE MARINA CLASE A 18.066 10 INFANTERÍA DE MARINA CLASE B 17.951 10 MANDO Y LIDERAZGO 18.097 56 19.490 19.960 55 945 67 SUBP SU 16.130 SU MOTORISTA CLASE A 18.292 34 SU MOTORISTA CLASE B 18.175 10 MANDO Y LIDERAZGO 18.406 34 19.890 19.270 24 17 68 SUBP IM 15.603 INFANTERÍA DE MARINA CLASE A 17.972 15 INFANTERÍA DE MARINA CLASE B 17.963 13 MANDO Y LIDERAZGO 17.979 54 19.350 19.610 47 393
C- 3
No GRADO ESP GRADUA CION
CURSO DE ASCENSO (BÁSICO)
NOTA ANT CURSO DE ASCENSO NOTA ANT CURSO GRADO SUPERIOR
NOTA ANT CALIF 2000
CALIF 2010
DÍAS ARRESTO
DÍAS OPE
69 SUBP SU 16.120 SU MOTORISTA CLASE A 19.021 1 SU MOTORISTA CLASE B 18.174 5 MANDO Y LIDERAZGO 19.003 88 20.000 19.530 28 207 70 SUBP IM 15.878 INFANTERÍA DE MARINA CLASE A 18.069 9 INFANTERÍA DE MARINA CLASE B 18.063 7 MANDO Y LIDERAZGO 18.135 42 19.730 19.550 66 417 71 SUBP IM 15.627 INFANTERÍA DE MARINA CLASE A 17.887 19 INFANTERÍA DE MARINA CLASE B 17.705 15 MANDO Y LIDERAZGO 17.938 75 19.487 19.865 36 179 72 SUBP SU 15.980 SU OPERACIONES CLASE A 18.763 7 SU OPERACIONES CLASE B 18.146 4 MANDO Y LIDERAZGO 18.858 37 19.800 19.710 14 408 73 SUBP IM 15.953 INFANTERÍA DE MARINA CLASE A 17.212 27 INFANTERÍA DE MARINA CLASE B 17.137 20 MANDO Y LIDERAZGO 17.361 95 19.640 19.545 15 180 74 SUBP SS 17.120 SS ELECTRÓNICO CLASE A 17.793 5 SS ELECTRÓNICO CLASE B 17.442 3 MANDO Y LIDERAZGO 17.837 84 19.835 19.483 67 105 75 SUBP SU 16.400 SU CUBIER (MANIOBRAS) CLASE A 18.352 13 CUBIERTA (MANIOBRAS) CLASE B 17.991 18 MANDO Y LIDERAZGO 15.85 45 19.199 19.620 25 320 76 SUBP IN 16.209 INFANTERÍA DE MARINA CLASE A 17.321 22 INFANTERÍA DE MARINA CLASE B 17.258 23 MANDO Y LIDERAZGO 17.197 90 19.180 19.756 106 610 77 SUBP SU 15.940 SU MOTORISTA CLASE A 18.329 27 SU MOTORISTA CLASE B 18.239 13 MANDO Y LIDERAZGO 18.327 27 19.770 19.490 33 401 78 SUBP SU 16.140 SU MOTORISTA CLASE A 18.191 46 SU MOTORISTA CLASE B 18.041 21 MANDO Y LIDERAZGO 18.209 46 19.398 20.000 37 487 79 SUBP SU 15.830 SU MOTORISTA CLASE A 18.158 31 SU MOTORISTA CLASE B 18.208 16 MANDO Y LIDERAZGO 18.248 31 19.928 19.245 76 265 80 SUBP SU 16.580 SU CUBIER (MANIOBRAS) CLASE A 18.742 5 CUBIERTA (MANIOBRAS) CLASE B 17.399 8 MANDO Y LIDERAZGO 16.45 86 19.000 19.730 76 875 81 SUBP SU 15.870 SU MOTORISTA CLASE A 17.984 70 SU MOTORISTA CLASE B 17.786 25 MANDO Y LIDERAZGO 17.874 70 19.723 19.590 62 66 82 SUBP SU 16.630 SU ARMAMENTO CLASE A 18.294 18 SU ARMAMENTO CLASE B 17.658 5 MANDO Y LIDERAZGO 18.369 76 19.648 19.770 31 440 83 SUBP SU 15.960 SU OPERACIONES CLASE A 18.734 8 SU OPERACIONES CLASE B 18.353 4 MANDO Y LIDERAZGO 18.808 22 19.726 20.000 24 217 84 SUBP SU 16.680 SU MOTORISTA CLASE A 18.477 19 SU MOTORISTA CLASE B 18.38 3 MANDO Y LIDERAZGO 19.121 19 19.230 19.200 39 261 85 SUBP SS 16.390 SS CUBIER (MANIOBRAS) CLASE A 18.423 8 CUBIERTA (MANIOBRAS) CLASE B 18.161 10 MANDO Y LIDERAZGO 16.33 36 19.980 19.642 129 694 86 SUBP SU 16.750 SU MOTORISTA CLASE A 18.268 33 SU MOTORISTA CLASE B 18.178 12 MANDO Y LIDERAZGO 18.386 33 19.390 19.878 73 0 87 SUBP SU 16.900 SU MOTORISTA CLASE A 18.519 20 SU MOTORISTA CLASE B 18.367 6 MANDO Y LIDERAZGO 18.471 20 20.000 19.475 29 83 88 SUBP SU 16.720 SU MOTORISTA CLASE A 18.284 35 SU MOTORISTA CLASE B 18.174 18 MANDO Y LIDERAZGO 18.238 35 19.378 19.750 39 198 89 SUBP SU 16.580 SU OPERACIONES CLASE A 18.348 16 SU OPERACIONES CLASE B 17.74 10 MANDO Y LIDERAZGO 18.344 72 19.589 19.500 63 12 90 SUBP SS 16.780 SS MECÁNICO CLASE A 18.211 2 SS MECÁNICO CLASE B 18.084 2 MANDO Y LIDERAZGO 18.359 39 19.760 19.290 42 69 91 SUBP AV 15.230 MOTORISTA AVIACIÓN CLASE A 19.102 2 MOTORISTA AVIACIÓN CLASE B 19.098 2 MANDO Y LIDERAZGO 19.105 14 19.111 19.964 59 18 92 SUBP SU 15.690 SU MOTORISTA CLASE A 17.679 82 SU MOTORISTA CLASE B 17.472 26 MANDO Y LIDERAZGO 17.805 82 19.256 19.650 45 1116 93 SUBP SU 15.970 SU MOTORISTA CLASE A 17.226 93 SU MOTORISTA CLASE B 17.185 27 MANDO Y LIDERAZGO 17.351 93 19.420 19.500 53 273 94 SUBP SU 15.830 SU CUBIER (MANIOBRAS) CLASE A 18.363 12 CUBIERTA (MANIOBRAS) CLASE B 17.078 17 MANDO Y LIDERAZGO 15.88 97 19.330 19.627 61 305 95 SUBP SU 15.860 SU MOTORISTA CLASE A 17.012 63 SU MOTORISTA CLASE B 17.858 22 MANDO Y LIDERAZGO 17.975 63 20.000 19.556 132 309 96 SUBP SU 15.950 SU CUBIER (MANIOBRAS) CLASE A 18.421 9 CUBIERTA (MANIOBRAS) CLASE B 17.788 30 MANDO Y LIDERAZGO 14.78 69 19.236 19.610 53 505 97 SUBP SU 15.090 SU CUBIER (MANIOBRAS) CLASE A 18.289 16 CUBIERTA (MANIOBRAS) CLASE B 17.107 22 MANDO Y LIDERAZGO 15.76 96 19.300 19.093 141 282 98 SUBP IM 16.310 INFANTERÍA DE MARINA CLASE A 19.640 2 INFANTERÍA DE MARINA CLASE B 19.485 1 MANDO Y LIDERAZGO 19.231 2 19.730 19.590 9 732 99 SUBP SU 17.480 SU ELECTRICISTA CLASE A 18.128 4 SU ELECTRICISTA CLASE B 18.798 5 MANDO Y LIDERAZGO 18.06 58 19.130 19.520 33 672 100 SUBP SS 16.800 SS ELECTRÓNICO CLASE A 19.003 3 SS ELECTRÓNICO CLASE B 18.879 6 MANDO Y LIDERAZGO 19.062 41 19.329 19.437 26 264
D - 1
ANEXO “D”
INFORME FINAL
1. RESUMEN DE LA COMPRENSIÓN DEL NEGOCIO: CONTEXTO, OBJETIVOS, Y CRITERIOS DE ÉXITO
EL proceso de selección para las áreas críticas de la Armada (Superficie, Submarinos, Aviación
Naval, Infantería de Marina e Inteligencia) no tiene un procedimiento establecido para la
selección, por lo que es importante determinar ciertos parámetros de acuerdo a las
especialidades, que nos ayuden a tener un criterio más acertado para realizar dicha selección;
por estos motivos, utilizamos la Minería de Datos para realizar la selección y determinación de
estos criterios y apoyar a optimizar de esta manera al proceso de selección de personal, para lo
cual se ha considerado utilizar el método de árboles de decisión aplicando la metodología CRISP-
DM para su desarrollo y ejecución.
Los objetivos planteados pretenden evitar una mala selección de personal, que trae
consecuencias negativas como impacto en la carrera militar de Oficiales y Tripulantes, problemas
presupuestarios y administrativos para la Armada del Ecuador (pérdida de cupos, lucro cesante,
procesos administrativos etc.) y por ende afecta a la gestión de personal; por tanto, utilizando la
información disponible en la Dirección General de Recursos Humanos de la Armada, se ha
planteado el siguiente objetivo primario:
Desarrollar un modelo de minería de datos para determinar los factores adecuados para la
selección de personal en cada una de las especialidades en las áreas críticas de la Armada.
Y derivado de este, establecer los objetivos específicos:
Identificar los procedimientos de selección de personal utilizados en las áreas críticas de la
Armada orientado a su utilización con Minería de Datos.
Desarrollar un modelo de minería de datos para determinar los factores adecuados de selección
de personal para áreas críticas de la Armada
Para el desarrollo de estos objetivos, se han considerado que se debe investigar la metodología
de Minería de datos y perfiles ocupacionales, orientar la aplicación de soluciones de Minería de
Datos a nivel de Recursos Humanos, definiendo las áreas críticas como las de Superficie,
Submarinos, Aviación Naval, Infantería de Marina e Inteligencia y se seleccionará la metodología,
la técnica y el modelo más adecuado para la obtención de los objetivos planteados.
De estos objetivos, se deriva el objetivo del negocio, que es: Determinar los factores de selección
de personal para cada una de las especialidades de Superficie, Submarinos, Aviación Naval,
Infantería de Marina e Inteligencia, de tal forma de poder aplicarlos en la selección adecuada para
los futuros aspirantes a los cursos en estas especialidades.
Para los criterios de éxito, se establece como criterio principal para el factor de selección de
personal el “determinar rangos verdaderos en los que la selección de personal se pueda basar
D - 2
para clasificar correctamente al personal en las especialidades consideradas”, mientras que se
consideran otros factores que son la nota mínima en cada materia y en cada curso, la conducta
y la evaluación del desempeño.
2. SUMARIO DE PROCESO DE MINERÍA DE DATOS
Como parte del proceso de Minería de Datos, verificamos lo existente en el inventario de recursos,
para lo que se coordinó para que la información sea obtenida de los servidores de la Dirección
General de Recursos Humanos, y a su vez, manejados en el Centro de Tecnologías de la
Información en donde trabaja personal de ingenieros y técnicos en informática que dan soporte,
actualización y mantenimiento al sistema informático.
La base de datos está principalmente estructurada en SQL Server y el hardware consta
principalmente de 06 servidores principales con 1 o 2 procesadores marca INTEL en cada uno,
con velocidades de sus procesadores entre 2.3 y 3.47 GHz con RAM de 4, 6, 12 y 16 GB y con
una memoria combinada de sus discos duros aproximada de 10 TB.
Los requerimientos están relacionados a que este proyecto debe determinar los factores de
selección del personal más adecuados para cada especialidad pero que sean un aporte y no
sean datos que no contribuyan al propósito buscado; además, se busca que los datos principales
estén agrupados y adaptados a un solo formato para ser válidos y el resultado debe ser resumido.
Las presunciones se relacionan a que se debe asumir que los datos del personal existentes,
contienen la información suficiente para realizar el análisis que arrojen resultados utilizables y
verificables y que el grupo objetivo se basa en personal que ha terminado los cursos de su
respectiva área con un tiempo mayor a cinco años.
Se establece una restricción relacionada a que cierta información, con carácter confidencial, de
forma que la información extraída no sea relacionada directamente con una persona en particular
por lo que hay que adecuar los datos a esta situación.
Los riesgos relacionados a este proyecto se relacionan a los siguientes puntos y su respectivo
plan de contingencia:
Acceso restringido a ciertos datos del personal que pueden ser importantes para lograr
los objetivos.- Para evitar esto, se debe realizar el acercamiento a la autoridad respectiva
para su autorización.
Bases de datos con información insuficiente para lograr el objetivo de Minería de Datos.-
Se debe buscar la información necesaria en las instituciones relacionadas que puedan
tener esta información.
Sistemas de bases de datos de la Dirección General de Personal sea inestable debido a
su antigüedad y por tanto el manejo de datos sea riesgoso.- Se considera una estación
adicional o exportar los datos para su manejo fuera de los servidores.
D - 3
La estructura de datos sea diversa y se dificulte la compilación de datos de la base de
datos principal.- Se debe ajustar los datos para permitir su manipulación y exportación.
Dentro de la estructura de los datos no exista los datos o tablas necesarias para una
análisis adecuado de lo que se intenta implementar.- Se deberá buscar la información con
los datos importantes para exportar e implementarla.
Dentro del costo – beneficio para este proyecto, tenemos que están relacionados a la adecuación
de los servidores, la implementación de una estación de trabajo, la implementación del algoritmo,
los gastos asociados al proceso, el entrenamiento y finalmente obteniendo el proceso de
selección, todo esto a un costo estimado de $1.1150,00
En cuanto al objetivo relacionado a la Minería de Datos, este se establece como:
Determinar los valores de los parámetros relacionados a las rutas de clasificación encontradas
por el algoritmo dentro de la clasificación de las cinco especialidades consideradas, de acuerdo
al método del árbol de decisión utilizado y que logre una clasificación con el menor error
determinable.
Los criterios de éxito para este proyecto son los siguientes:
1. Que cuando el modelo sea aplicado a una población candidata que requiera su
clasificación para los cursos, esta clasificación este acorde a lo previsto por el modelo
en un porcentaje lo más alto posible.
2. Que los resultados arrojados por el modelo sean comprensibles y fáciles de manejar e
interpretar por el usuario del sistema.
Se establece el Plan del Proyecto, el cual contempla los siguientes puntos principales:
1. Análisis de los datos de la Base de Datos
2. Selección de los datos relevantes
3. Selección inicial de herramientas y técnicas
4. Revisión y estructuración de los datos relevantes
5. Soluciones de estructura de la base de datos
6. Desarrollo del Modelo
7. Prueba inicial del modelo
8. Ajustes del modelo y/o base de datos
9. Prueba del modelo
10. Evaluación del modelo
11. Instrucción
Para la evaluación inicial de herramientas y técnicas, se ha tomado en cuenta que se debe
considerar el factor histórico del personal previamente graduado como base para que la Minería
de Datos determine los porcentajes óptimos y permitir clasificar al personal de Oficiales y
Tripulantes en cada especialidad, por tanto, se considera como adecuado el uso de árboles de
D - 4
decisión, ya que tiene la ventaja de que su manejo sería relativamente simple para la clasificación,
pero se debe cuidar de no complicar demasiado la estructura de la clasificación.
Para la recolección de datos iniciales, se trabajó identificando los tipos de datos existentes en la
base de datos principal de la Dirección General de Recursos Humanos, que como ya se dijo está
estructurado en SQL Server, existiendo información sobre el personal de la Armada relacionada
a la siguiente estructura: Datos principales, ascensos, calificaciones anuales, recompensas o
condecoraciones, cursos, profesorado, salidas al exterior, transbordos, especialidad, instrucción
académica, faltas y sanciones, cónyuge, hijos, padres, licencias y permisos y tiempo total
operativo.
De esta estructura solo se considera los datos más relevantes para este trabajo.
Para la colección de datos iniciales, ya que la base de datos principal se compone de varias bases
de datos, se tuvo que extraer la información de forma manual, debiendo realizar la selección del
personal que a integrar el estudio (selección de la muestra), tabular los códigos de cada uno del
personal seleccionado, selección de los atributos de la información del personal que sea
relevante, realizar consultas de acuerdo a los códigos para obtener la información e integrarla
para su migración a tablas de Microsoft Excel.
Para los criterios de selección, se ha considerado los logros académicos, de gestión, de
comportamiento y la capacidad de permanencia en su especialidad, lo que nos dará la pauta para
lograr determinar los patrones adecuados de selección.
La lista de fuente de datos considera extraer la información de los módulos de: Personal, Sistema
de Evaluación, Evaluación, Registro de Faltas y Sanciones y de Registro de Tiempo de Servicio
y Recompensas.
Los tipos de datos seleccionados inicialmente de una muestra de 100 personas son:
1. Código de registro.
2. Nota de graduación
3. Nota de Curso de Perfeccionamiento inicial
4. Antigüedad de Curso de Perfeccionamiento
5. Nota de Curso de Especialidad
6. Antigüedad de Curso de Especialidad
7. Nota de Curso de Ascenso a Grado Superior
8. Antigüedad de Curso de Ascenso a Grado Superior
9. Calificaciones anuales
10. Días de Arresto
11. Tiempo de Servicio
Todos estos datos serán revisados y organizados dentro del árbol de decisión para obtener los
parámetros adecuados para la selección de personal en las diferentes especialidades.
D - 5
Los datos indicados y su revisión se vuelven complejos porque a medida que pasa el tiempo las
nuevas políticas y reglamentaciones sobre personal cambian y los datos a veces no son
coherentes (como cambios de nombres de los cursos, consideraciones distintas para un mismo
tipo de información, cambios en los períodos de evaluación y otros).
De acuerdo al análisis se establece la calidad de los datos, exponiendo sus problemas y su
posible solución.
Para escoger los datos se seleccionó las filas (registros) y columnas (atributos) de los Oficiales y
Tripulantes con historial suficiente, seleccionando cuatro promociones, dos de oficiales y dos de
tripulantes, quienes tienen más de 20 años de servicio en la Armada, con un total de 100 registros.
Del primer análisis de los atributos a seleccionar, se excluyeron: la antigüedad del Curso de
Perfeccionamiento inicial, la antigüedad del Curso de Ascenso de Especialidad y la antigüedad
del Curso de Ascenso a grados superiores, ya que el atributo de las antigüedades presenta el
problema de que algunos cursos, al haberse realizado en diferentes fechas, tienen valores no
distribuidos de antigüedades, lo que solo va a generar “ruido” en los resultados.
En cuanto a limpieza de datos, se detectaron los siguientes problemas en los atributos (sin
considerar los atributos excluidos):
Curso de Ascenso de Especialidad.- Tres oficiales sin registro en el curso realizado (por
pérdida de curso), por lo que se verificó la nota alcanzada en el nuevo curso realizado.
Curso de Ascenso a grados superiores.- Nota incompleta para dos registros de
tripulantes (por pérdida de curso), igualmente se verificó en el sistema la nota
correspondiente del curso que tuvieron que repetir.
Calificaciones.- Varios registros en un año (por transbordos), por lo que se realizó un
promedio de las calificaciones para obtener un solo valor.
Permanencia en repartos operativos.- Cada especialidad tiene variaciones en el registro
del tiempo, por lo que se calculó el valor correspondiente a días de operación.
No se consideró para este trabajo la construcción de datos y en cuanto a la integración se realizó
la integración de los datos para las Notas de Cursos y Calificaciones.
En cuanto al formateo de datos para poder utilizar la aplicación WEKA con nuestro archivo de
Microsoft Excel, todas las comas se cambiaron a puntos, los registros con decimales fueron
aproximados a máximo cuatro cifras significativas, luego el archivo de Microsoft Excel se
transformó a un archivo de extensión .csv (archivos de valores separados por comas de Microsoft
Excel), que debió ser revisado en un editor de texto para cambiar todos los (;) punto y comas por
(,) comas, ya que este es el separador natural para ser entendido por la aplicación WEKA.
Para el inicio del modelado, se revisó las diferentes técnicas de modelado aplicables a árboles
de decisión, que son:
ADTree.- (Alternating Decisión Tree) Método de clasificación proveniente del
aprendizaje automático.
D - 6
Decision Stump.- Árbol de decisión de un nivel
ID3.- Inducción mediante árboles de decisión.
J48.- Es una implementación del algoritmo C4.5
LMT.- (Logistic Model Tree) Estructura de un árbol de decisión con funciones de
regresión logística en las hojas.
M5P.- Árbol de regresión
NBTree.- Naive Bayes Tree
Random Forest.- Bosque Aleatorio
Random Tree.- Árbol Aleatorio.
REPTree.- Método de aprendizaje rápido
User Classifier.- Permite construir su propio árbol de decisión.
Se ha considerado la utilización del algoritmo J48, ya que es una mejora del C4.5 y del ID3 con
una probabilidad de acierto ligeramente superior a sus antecesores.
Las presunciones del modelado se refieren a que no es necesario que los datos estén completos,
que los datos deben ser preferentemente numéricos, lo cual ya se cumplió en el desarrollo
anterior.
Para la prueba de diseño, se consideró lo siguiente:
1. Verificar la aplicabilidad de los datos con árboles de decisión.
2. Verificar la aplicabilidad del desarrollo del árbol de decisión
3. Verificar la matriz de confusión
Con todas estas consideraciones se inició el trabajo de construcción del modelo utilizando el
programa WEKA.
3. RESUMEN DE LOS RESULTADOS DE MINERÍA DE DATOS
Luego de todo el análisis utilizando el programa WEKA con árboles de decisión y el método J48,
se llegó a determinar el siguiente algoritmo de árbol de decisión, con las rutas y valores de los
parámetros indicados a continuación:
DiasOpe <= 313 | Sanciones <= 3: SS (3.0) | Sanciones > 3 | | Sanciones <= 25 | | | Nota Graduacion <= 17.8: IN (3.0/1.0) | | | Nota Graduacion > 17.8: SU (11.0/2.0) | | Sanciones > 25 | | | Nota Graduacion <= 19.021: SU (18.0/3.0) | | | Nota Graduacion > 19.021: AV (2.0/1.0) DiasOpe > 313 | Sanciones <= 33 | | Nota Graduacion <= 18.133 | | | Nota Cursos <= 18.012: IM (2.0) | | | Nota Cursos > 18.012 | | | | DiasOpe <= 729 | | | | | Nota Cursos <= 18.35: SU (4.0/1.0) | | | | | Nota Cursos > 18.35: AV (7.0)
D - 7
| | | | DiasOpe > 729: SU (6.0) | | Nota Graduacion > 18.133 | | | Sanciones <= 20 | | | | Sanciones <= 5 | | | | | Nota Graduacion <= 18.519: SU (2.0/1.0) | | | | | Nota Graduacion > 18.519: SS (2.0) | | | | Sanciones > 5: IM (9.0/2.0) | | | Sanciones > 20: SU (5.0) | Sanciones > 33 | | Nota Cursos <= 17.691 | | | Sanciones <= 104: SU (5.0) | | | Sanciones > 104: SS (2.0/1.0) | | Nota Cursos > 17.691: IM (19.0/2.0)
Este algoritmo tiene un tamaño de árbol de 31 y tiene un 86% de instancias clasificadas
correctamente, y 14% de instancias incorrectamente clasificadas.
Se inicia la clasificación por días de operación, presentando mejoras en cuanto a los análisis
anteriores, excepto para superficie e inteligencia que tuvieron un ligero aumento del error de
clasificación.
El árbol tiene un diseño más simple y de menor tamaño que los anteriores.
4. SUMARIO DE LA EVALUACIÓN DE RESULTADOS
La evaluación de los resultados, se define de la siguiente manera en base a cada especialidad:
SUPERFICIE.- Para los días de operación, la mayor parte de la población (56%) de
superficie tiene una cantidad menor a 313 días de Operación y solo algo más del 30%
supera esa cantidad; para las sanciones, la mayor parte del personal tiene menos de 33
días de arresto; la mayor parte mantiene una nota de graduación mayor a 17.8 y menor a
19.021 y en relación a la Nota de Cursos, no se aplica a todas las clasificaciones de
superficie, solo a cerca del 30% de la población, las notas se mantienen entre mayor a
18,012 y menor a 18,35.
SUBMARINOS.- En los días de operación, más del 60% de la población tiene más de 313
días de operación en la mar y solo un poco más del 30% tiene menos de 313 días; para
las sanciones, algo más del 60% de la población tiene menos de 33 días de arresto, sin
embargo, es de notar que aproximadamente el 30% tiene menos de 3 días de arresto; en
relación a la Nota de Graduación, algo más del 60% no se le considera en la selección la
nota de graduación, mientras que menos del 30% mantiene una nota mayor a 18,133 y
para la Nota de Cursos, algo más del 60% no se le considera en la selección la nota de
cursos y Menos del 30% mantiene una nota en los cursos menor a 17,691. En esta
especialidad
AVIACIÓN NAVAL.- En los días de operación, más del 75% mantienen una cantidad mayor
a 313 días de operación y solo algo más del 20% tiene menos de ese valor; para las
sanciones, toda la población analizada tiene menos de 33 días de arresto, mientras que
más del 75% tienen una nota de graduación menor a 18,133 y solo algo más del 20% tiene
D - 8
una nota mayor a 19,021, y en relación a la Nota de Cursos solo se aplica a algo más del
75%, manteniéndose en un valor mayor a 18,012.
INFANTERÍA DE MARINA.- En los días de operación, toda la población mantiene un valor
(que fue modificado en sus inicios) mayor a 313 días de operación en el terreno; para las
sanciones , más del 60% de la población tiene una cantidad de días de arresto superior a
33 días y solo algo más del 30% se mantiene por debajo de los 33 días de arresto; para la
Nota de Graduación, solo se considera para el 30% de la población un valor de nota de
graduación superior a 18,133 y para el 6% una nota menor a este valor, mientras que para
la Nota de Cursos, para el 6% se considera una nota de cursos menor a 18,012, mientras
que para más del 60% se considera una nota de cursos mayor a 17,691
INTELIGENCIA.- Para los días de operación, se considera un valor para toda la población
menor o igual a 729 días de operación, para las sanciones, para todos se consideran
valores superiores a 3 días y menores o iguales a 25 días de arresto, mientras que la nota
de graduación considerada es menor o igual a 17,8; para la Nota de Cursos, no se
considera en la selección ninguna nota de cursos para esta especialidad.
Estos valores deben ser los considerados para la clasificación de los futuros candidatos a los
cursos, tomando en cuenta las diferencias en los parámetros determinados para cada
especialidad, lo que da un punto de partida para dicha clasificación.
En cuanto a la evaluación de los resultados en cuanto a los criterios de éxito del negocio,
podemos indicar lo siguiente:
SELECCIÓN DE PERSONAL.- Debe estar enmarcado en el menor error posible una vez
aplicado el algoritmo, debe ser menor o igual al 15% en el análisis y el modelo generado
tiene instancias clasificadas correctamente 86% 14% incorrectas, encontrándose dentro
del parámetro esperado.
NOTA MÍNIMA EN CADA MATERIA.- Cada Oficial o Tripulante en curso debe igualar o
superar el mínimo requerido en cada materia de 16/20 con un margen de error de +/- 5%,
y si bien no se analizó los datos de las notas de cada materia para el modelo considerado,
este promedio se encuentra incluido y superado ampliamente en las notas de los cursos
en general.
NOTA MÍNIMA EN CADA CURSO.- Cada Oficial o Tripulante debe igualar o superar el
promedio general en cada curso realizado que es de 16/20 con un error de +/- 5%, teniendo
resultados que muestran que los valores obtenidos por la población mantienen varios
rangos, el menor de ellos es que las notas sean menores o iguales a 17,691, mientras que
en el extremo más alto se mantienen notas superiores a 18,012, lo que supera ampliamente
el promedio esperado, contemplando un nivel de análisis superior al considerado.
CONDUCTA.- La conducta debe superar la evaluación en un nivel adecuado al buen
comportamiento superando el valor de 18/20 con un error de +/- 5%, y si bien las
D - 9
calificaciones anuales fueron eliminadas por su casi nulo aporte al análisis, el valor
considerado inicialmente estaba con notas del personal superior al 19,000 en todos los
años, lo que supera ampliamente al margen considerado.
EVALUACIÓN DE DESEMPEÑO.- El promedio de la evaluación del desempeño de los
Oficiales y Tripulantes que terminan los cursos, posterior a un año de labores debe ser
adecuado, es decir, igual o superior al 18/20, teniendo que el desempeño global de cada
persona considerada en este estudio toma en cuenta no solo un factor, sino los cuatro
factores de los criterios de selección para demostrar que es superior en casi todos los
atributos analizados.
La decisión tomada es continuar con el proyecto actual de Minería de Datos ampliando los
registros a una mayor población para mejorar los parámetros de selección, e incluir información
revisada para la selección de nuevos candidatos a estas especialidades para iniciar su aplicación
en los sistemas informáticos existentes.
5. RESUMEN DEL DESARROLLO Y DE LOS PLANES DE MANTENIMIENTO
Para el desarrollo del plan, se deben tomar las siguientes acciones:
Análisis de los datos de la Base de Datos.- Se debe revisar la BD para seleccionar una
muestra mayor de la actualmente considerada.
Revisión y estructuración de los datos seleccionados.- Con la ampliación de los registros,
se debe verificar formato y compatibilidad de los datos, completar datos faltantes.
Soluciones de estructura de la base de datos.- Proceso similar al anterior para verificar la
idoneidad de los nuevos datos.
Revisión del modelo en base a los nuevos datos.- Se debe utilizar el mismo modelo y
verificar se encuentren dentro del rango ya seleccionado; realizar ajustes si es necesario.
Aplicación del modelo en sistemas informáticos.- Con el desarrollo del modelo de árboles
de decisión, realizar una implementación en los sistemas informáticos existentes para
automatizar el proceso.
Con respecto al plan de supervisión y mantenimiento, se debe realizar lo siguiente:
Revisión periódica de los datos.- Debe revisarse periódicamente la BD por parte del
administrador para verificar que se mantenga su estructura y no se hayan perdido, dañado
o modificado los datos.
Ampliación progresiva y eliminación de datos.- La nueva información que llega a la base
de datos principal, debe ser aprovechado para tomar nuevos datos de ella y eliminar los
registros ya no adecuados, al menos una vez al año.
D - 10
Comparación de parámetros anteriores y nuevos.- Al realizar la actualización de datos,
se debe comparar los parámetros nuevos con los anteriores para detectar variaciones
pequeñas o grandes en los parámetros de selección.
Identificación y corrección de errores.- Se debe revisar periódicamente los datos y el
algoritmo para identificar errores al menos una vez al año.
Informes.- Realizar informes de cada verificación, actualización o cambio realizado.
6. ANÁLISIS COSTO/BENEFICIO
Este trabajo y su desarrollo dentro de las bases de datos de personal, permitirá introducir mejoras a costos relativamente bajos; los costos y su beneficio como resumen de todo el proyecto se muestran a continuación:
La implementación del algoritmo tendrá un costo relacionado al tiempo de trabajo del
personal que lo implemente en el sistema informático, el cual deberá integrar la
información entre las bases de datos para la ampliación de los registros y hacer que la
aplicación del algoritmo sea automático una vez seleccionados los registros, y por otro
lado, permitir que los nuevos candidatos a cursos sean seleccionados automáticamente
de acuerdo a los valores considerados para
Esta implementación implicará la instalación de un servidor adicional que pueda “integrar”
la información de las distintas bases de datos para que no se deba realizar de forma
manual, y permita seleccionar los atributos y registros deseados para aplicarlos con el
modelo; esto también trae beneficios adicionales ya que se puede “explorar” otros
requerimientos de información, simplemente modificando los atributos y/o registros para
lograr otro tipo de información que se requiera.
Otro costo asociado es el de capacitación y entrenamiento, que igualmente tendrá un
costo relacionado al tiempo de trabajo de instructor/es y personal capacitado pero que
será mínimo, y donde se podrá establecer y mantener el soporte y mantenimiento
requeridos del sistema de selección.
7. CONCLUSIONES PARA EL NEGOCIO
Las conclusiones para el negocio, que están relacionadas con las conclusiones generales del
trabajo, se determinan de la siguiente manera:
1) La aplicación del modelo de Minería de Datos determinado en este trabajo, con el cual se
puede realizar la clasificación de personal para los cursos de especialidades críticas para
la Armada, permitirán lograr una mejora sustancial en la selección indicada para el
mejoramiento del desempeño del personal en estas áreas y evitar los problemas
relacionados.
D - 11
2) El establecimiento de un sistema informático que integre a las bases de datos que genere
una selección automática del personal candidatos a los cursos de especialidades en las
áreas críticas de la Armada, permitirá mejorar el procedimiento de selección, haciéndolo
más eficiente y ágil.
8. CONCLUSIONES PARA FUTURA MINERÍA DE DATOS
Las conclusiones para futura minería de datos se establecen como:
1) La metodología CRISP-DM, como base para desarrollar proyectos de Minería de Datos
y que se debe adaptar al trabajo desarrollado sin tener una estructura de desarrollo
estricta, permitió desarrollar este proyecto abarcando todas las necesidades siendo una
guía muy clara y de gran utilidad para próximos proyectos de Minería de Datos.
2) El uso del método de árboles de decisión con su correspondiente algoritmo seleccionado
J48 que es un método de Minería de Datos adecuado a este tipo de selección, permitió
que dicha selección obtenga los parámetros y caminos de clasificación requeridos para
la clasificación del personal en las diferentes especialidades consideradas.
3) El uso de la aplicación WEKA de la Universidad de Waikato, que es una herramienta
poderosa para el análisis de tablas para encontrar los patrones de los algoritmos, permitió
obtener mucha información importante integrada en los parámetros de selección
encontrados en el modelo.