redes neurais artificiais - cin.ufpe.br
Post on 24-May-2022
13 Views
Preview:
TRANSCRIPT
UNIVERSIDADE FEDERAL DE PERNAMBUCO – UFPE CENTRO DE INFOMÁTICA - CIN
Redes Neurais Artificiais Uma abordagem para o problema de Cross-Selling
Recife 29 de junho de 2010
Autor: Rafael Lima [ragpl]
Professor: Germano Vasconcelos
Pág. 1
Sumário Introdução .............................................................................................................................................. 2
Redes Neurais Artificiais ........................................................................................................................ 3
Neurônio de McCulloch & Pitts ............................................................................................................. 5
Redes Multi Layer Perceptron (MLP) ..................................................................................................... 6
Back Propagation ................................................................................................................................... 7
Metodologia de Resolução do Cross-Selling .......................................................................................... 8
Número de nós da camada intermediária: ........................................................................................ 9
Número máximo de iterações ........................................................................................................... 9
Número máximo de erros no conjunto validação ............................................................................. 9
Taxa de aprendizagem ....................................................................................................................... 9
Detalhamento dos Experimentos ........................................................................................................ 10
Abordagem 1 (Replicar) ................................................................................................................... 10
Algoritmo de aprendizagem: Gradient descent backpropagation .............................................. 10
Algoritmo de aprendizagem: Levenberg-Marquardt backpropagation ...................................... 64
Abordagem 2 (Reduzir) .................................................................................................................. 100
Treinamento com melhor configuração ............................................................................................ 105
Analise dos resultados ....................................................................................................................... 106
Conclusão ........................................................................................................................................... 107
Bibliografia ......................................................................................................................................... 108
Pág. 2
Introdução Este trabalho descreve uma metodologia adotada para a construção de uma solução para o problema de classificação, Cross-Selling, através da utilização de uma Rede Neural Artificial.
Podemos definir Cross-Selling como:
“A marketing term for the practice of suggesting related products or services
to a customer who is considering buying something. If you're buying a book on
Amazon.com, for example, you may be shown a list of books similar to the one
you've chosen or books purchased by other customers that bought the same
book you did”
Cambridge Dictionary
O Cross-Selling é uma estratégia de marketing, utilizada por estabelecimentos comerciais, tanto para manter o vínculo com um cliente, como para aumentar a receita gerada por cada cliente, podemos citar como exemplo clássico dessa prática a típica frase dita pelos vendedores de fast food: “Deseja fritas pra acompanhar senhor?!”.
O processo funciona da seguinte forma: analisa-se o perfil de um cliente do estabelecimento, por exemplo, e identificam-se outras pessoas que têm as mesmas características - sexo, idade, estado civil, faixa de renda - e, portanto, têm mais propensão a comprar esse mesmo tipo de produto. Os custos de implementação, operacional e de manutenção deste sistema são justificados por serem inferiores ao custo de atingir um novo cliente. "O custo de colocação de um novo produto para uma
pessoa que já é nossa segurada é quatro vezes menor do que para uma pessoa que não era nossa
cliente" [Jorge Nasser, diretor de Marketing do grupo Bradesco].
A Amazon, por exemplo, tem 35% de suas vendas providas de cross-sells e recomendações. No entanto, para conseguir realizá-lo de forma apropriada, é preciso haver uma infra-estrutura de informação muito eficiente. Entretanto, é imprescindível que o Cross-Selling seja feito de forma moderada e conveniente, dependendo da abordagem utilizada, o cliente pode interpretar como uma venda agressiva, gerando riscos de romper esta relação comercial, por isto, é importante garantir que o produto ou serviço a ser oferecido possua algum valor para ele, cubra as suas necessidades e que eles ainda não o possuam. As inúmeras variáveis envolvidas, a complexidade e imprecisão dos comportamentos dos clientes tornariam o processo muito difícil e custoso para ser calculado de forma algorítmica e, por isto, neste trabalho proporemos uma abordagem de solução baseada em redes neurais.
Pág. 3
Redes Neurais Artificiais Redes Neurais Artificiais (RNA) é um paradigma conexionista utilizado para a resolução de problemas linearmente ou não linearmente separáveis. Este paradigma modela uma estrutura computacional que tem sua concepção e desenvolvimento embasados em estudos de vários campos do conhecimento (computação, psicologia, biologia, física entre outros), com o intuito de prover uma estrutura capaz de aprendizado baseado em exemplos, simulando muitas vezes, o comportamento do cérebro (daí a origem do nome).
Figura 1 Representação de uma rede neural artificial
As RNAs têm sido usadas em inúmeras áreas do conhecimento, como processamento de sinais, análise de imagens médicas, sistemas de diagnóstico, previsões de séries temporais, reconhecimento de caracteres manuscritos, sistemas metrológico, modelagem de comportamento de agentes autônomos, dentre outros. Um problema tipicamente solucionável com RNAs deve ser descrito como um problema de reconhecimento de padrões ou de aproximação de uma função. Para os casos de reconhecimento de padrões uma RNA deve classificar um padrão de entrada dentre os de saída, mesmo sem nunca ter visto o referido padrão. Uma característica limitante das RNAs é sua incapacidade de trabalhar com dados não numéricos, isto é, para um problema cujo domínio lida com grandezas não numéricas, as entradas precisam ser pré-processadas e, segundo critérios estabelecidos caso a caso, convertidas em valores numéricos para que a rede possa então funcionar. Existem diversas topologias que podem ser utilizadas para a construção de uma RNA, dentre as mais conhecidas estão:
• Perceptron
• Multi-Layer Perceptron
• Redes de Funções de Base Radial
• Modelo de Hopfield
• Modelo de Kohonen
• Modelos ART
• Cascade-correlation (CASCOR)
Pág. 4
Cada topologia possui características específicas que as tornam mais apropriadas, ou as incapacitam, para solucionar certo grupo de problemas (por exemplo, redes do tipo perceptron só são capazes de solucionar problemas linearmente separáveis), podemos diferenciar as diversas topologias de rede neural analisando:
• Tipo de aprendizado o Supervisionado o Não supervisionado o Por reforço
• Técnica de aprendizado o Clustering o Gradiente descendente o DDA
• Função de ativação o Funções sigmóide o Função gaussiana o Função degrau
• Regra de propagação o Soma ponderada o Distancia euclidiana
• Características diversas o Conexões laterais o Winner takes all
A escolha da topologia da rede neural utilizada em cada aplicação é uma decisão extremamente importante e pode limitar o desempenho da solução, portanto, deve ser tomada por alguém que entenda o domínio do problema. É desejável que uma RNA apresente as seguintes características:
• Aprendizagem através de exemplos
• Inferência estatística não paramétrica
• Adaptabilidade
• Capacidade de generalização
• Tolerância a ruídos
Pág. 5
Neurônio de McCulloch & Pitts O neurônio artificial é a unidade básica da arquitetura das redes neurais artificiais. Na estrutura do neurônio observa-se:
• Um conjunto de entradas, cada qual relacionada a um peso, que fornecem os sinais ao neurônio;
• Uma função de ativação que relaciona as entradas a um limiar a fim de definir se o neurônio será
ativado ao não.
• Uma saída, que em termos gerais, é a ativação, ou não, do neurônio
Figura 0 Modelo de um neurônio artificial
Na Figura 2 cada wi representa os pesos associados com as entradas xi. Φ é a função de ativação (esta função tem inspiração biológica, simula o limiar de excitação do neurônio, parâmetro este que indica a intensidade do estimulo necessária para um neurônio despolarizar). A saída do neurônio é obtida aplicando às entradas a regra de propagação, para então, submeter o valor obtido a função de ativação, que gerará a saída, dizendo se o neurônio ativa, ou não.
Pág. 6
Redes Multi Layer Perceptron (MLP) Uma rede Multi Layer Perceptron utiliza como estrutura básica o neurônio de McCulloch & Pitts, dispondo estas unidades em camadas, as quais recebem informações da camada imediatamente anterior e provêem informações para a seguinte, nesta topologia não há conexões entre os neurônios de uma mesma camada (conexões laterais), por isso diz-se que é uma rede feedforward. Redes MLP são capazes de resolver problemas complexos ditos não linearmente separáveis, e por isto são amplamente difundidas para diversos tipos de aplicação. Apesar de não existir limitação para o número de camadas, estudos comprovam que uma rede MLP com uma única camada escondida é capaz de aproximar qualquer função continua definida em um hipercubo o que permite muitas vezes aproximar a solução de problemas extremamente complexos. Entretanto não há garantia de convergência e a rede pode cair em um mínimo local, o que torna em certos casos o aprendizado lento. O principal algoritmo de aprendizagem utilizados em redes MLP é o Back propagation (que será descrito nó próximo tópico), e esta combinação (MLP + Back propagation) é a solução padrão para muitos casos de reconhecimento de padrões com aprendizagem supervisionada e objeto de investigações em andamento no campo na neurociência computacional e processamento paralelo distribuído. Atualmente é possível encontrar redes MLP para resolver problemas de: speech recognition, image recognition, machine translation software e cyber security.
Back Propagation O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposiçõesem uma RNA, são elas:
• Função de ativaç
• Função de ativação precisa ser
Mesmo satisfazendo essas restrições, com a utilização do convergênciatreinamento ocorre em duas fases, e backward. Forward: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos neurônios, resultante, tal vrestrições mencionadasrepresenta o estado de ativação do através das sinapses de saídamesma camadaentão comparada com o resultado desejado. em caso de erro inicia Backward: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os determiná-matemáticas para tentar estimarcálculos pode ser visto na
Back Propagation
O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposiçõesem uma RNA, são elas:
Função de ativaç
Função de ativação precisa ser
Mesmo satisfazendo essas restrições, com a utilização do convergência da rede, isto é, a rede
amento ocorre em duas fases, e .
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos
estes recebem os “resultante, tal valor é utilizadorestrições mencionadasrepresenta o estado de ativação do
das sinapses de saídamesma camada, camada após camada, então comparada com o resultado desejado. em caso de erro inicia-
A partir das informações: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os
-lo com precisãomatemáticas para tentar estimarcálculos pode ser visto na
Back Propagation
O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposições que precisam ser respeitadas para a utilizaem uma RNA, são elas:
Função de ativação precisa ser
Função de ativação precisa ser
Mesmo satisfazendo essas restrições, com a utilização do da rede, isto é, a rede
amento ocorre em duas fases, e
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos
estes recebem os “estímulosalor é utilizado como
restrições mencionadas, um exemplo bastante utilizado são as funções representa o estado de ativação do
das sinapses de saída. Este processo ocorre paralelamente entre os , camada após camada,
então comparada com o resultado desejado. -se a fase backward
A partir das informações: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os diversos
com precisão. O matemáticas para tentar estimarcálculos pode ser visto na Figura 3
O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
que precisam ser respeitadas para a utiliza
ão precisa ser diferençável
Função de ativação precisa ser monotônica
Mesmo satisfazendo essas restrições, com a utilização do da rede, isto é, a rede construída
amento ocorre em duas fases, e cada fase
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos
estímulos” e utilizam uma regra de propagação para calcular o valor como parâmetro
, um exemplo bastante utilizado são as funções representa o estado de ativação do neurônio
. Este processo ocorre paralelamente entre os , camada após camada, até que
então comparada com o resultado desejado. backward.
A partir das informações: resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p
diversos neurônios . O Back Propagation
matemáticas para tentar estimar o erro e fazer o reajuste dos pesos, o esquema simplificado dos Figura 3.
F i gu ra 3
O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
que precisam ser respeitadas para a utiliza
diferençável em todos os pontos
nica
Mesmo satisfazendo essas restrições, com a utilização do construída pode corresponder a um mcada fase percorre a rede em um sentido:
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meio de uma camada de préos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos
” e utilizam uma regra de propagação para calcular o valor parâmetro em uma função de ativação
, um exemplo bastante utilizado são as funções neurônio atual, que é passado para as camadas
. Este processo ocorre paralelamente entre os até que seja atingida a
então comparada com o resultado desejado. Em caso de acerto passa
resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída a rede de classificação, entretanto a partir do primeiro passo
e sinapses de cadaropagation se utiliza então de diversas formulações
o erro e fazer o reajuste dos pesos, o esquema simplificado dos
F i gu ra 3
O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
que precisam ser respeitadas para a utiliza
em todos os pontos
Mesmo satisfazendo essas restrições, com a utilização do Back Propagation,
pode corresponder a um mpercorre a rede em um sentido:
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro de uma camada de pré
os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor
uma função de ativação , um exemplo bastante utilizado são as funções
atual, que é passado para as camadas . Este processo ocorre paralelamente entre os
seja atingida a camada de saída. A saída da rede é Em caso de acerto passa
resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.
a rede tem como mensurar exatamente o erro rimeiro passo backward
e sinapses de cada camada, sendo assim, se utiliza então de diversas formulações
o erro e fazer o reajuste dos pesos, o esquema simplificado dos
O algoritmo de aprendizado mais utilizado para redes MLP é o back propagationalgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
que precisam ser respeitadas para a utilização do
Back Propagation,
pode corresponder a um mpercorre a rede em um sentido:
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro de uma camada de pré-processamento. A partir daí,
os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor
uma função de ativação -, um exemplo bastante utilizado são as funções sigmóide
atual, que é passado para as camadas . Este processo ocorre paralelamente entre os
camada de saída. A saída da rede é Em caso de acerto passa-se para o
resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas mais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.
tem como mensurar exatamente o erro backward este valor do erro fica
camada, sendo assim, se utiliza então de diversas formulações
o erro e fazer o reajuste dos pesos, o esquema simplificado dos
propagation. Estealgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
ção do Back P
Back Propagation, não há garantias de pode corresponder a um mínimo local.
percorre a rede em um sentido:
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro processamento. A partir daí,
os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor
- que deve obedecer as sigmóide – e o resultado
atual, que é passado para as camadas . Este processo ocorre paralelamente entre os neurônios
camada de saída. A saída da rede é se para o próximo
resposta da rede | resposta de desejada, a fase ais externas e propagando
até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. tem como mensurar exatamente o erro
este valor do erro fica camada, sendo assim,
se utiliza então de diversas formulações o erro e fazer o reajuste dos pesos, o esquema simplificado dos
Pág. 7
. Este é umalgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
Back Propagation
não há garantias de ínimo local. O
percorre a rede em um sentido: forward e
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro processamento. A partir daí,
os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor
que deve obedecer as e o resultado
atual, que é passado para as camadas seguintes neurônios de uma
camada de saída. A saída da rede é próximo padrão,
a fase backward
ais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.
tem como mensurar exatamente o erro este valor do erro fica
camada, sendo assim, impossívelse utiliza então de diversas formulações
o erro e fazer o reajuste dos pesos, o esquema simplificado dos
7
um algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.
ropagation
não há garantias de O e
: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro processamento. A partir daí,
os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor
que deve obedecer as e o resultado
seguintes de uma
camada de saída. A saída da rede é padrão,
backward
ais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.
tem como mensurar exatamente o erro este valor do erro fica
impossível se utiliza então de diversas formulações
o erro e fazer o reajuste dos pesos, o esquema simplificado dos
Pág. 8
Metodologia de Resolução do Cross-Selling Como forma de exercitar e avaliar o conteúdo visto na disciplina de redes neurais foi proposto como atividade desenvolver uma RNA para resolução do problema de Cross-Selling (previamente explicado neste documento). A base de dados utilizada foi disponibilizada pelo professor Germano Vasconcelos, no site da disciplina de redes neurais (http://www.cin.ufpe.br/~gcv/web_lci/intro.html) e é formada por 40.700 casos, classificados em entre duas classes e catalogados em um único arquivo. Como primeiro passo de processamento destes dados, foi feita uma varredura em busca de inconsistências, neste momento foram detectados 23 casos repetidos dentro da base, tal situação não pode ocorrer (os casos repetidos seriam mais “memorizados” que os outros, influenciando na resposta da rede), então, estes foram excluídos da base. De posse dos dados sem repetição, o arquivo foi separado em 2 sub arquivos cada qual contendo apenas exemplos de uma classe, o que totalizou 700 exemplos em C1 e 39978 exemplos em C2. A divisão dos conjuntos de treinamento, validação e teste foi feita, individualmente em cada sub arquivo, obedecendo aos percentuais de 50%, 25% e 25% respectivamente, após esta separação é necessário equilibrar o número absoluto de casos de cada classe nos conjuntos de treinamento e validação, e para isso foram adotadas duas abordagens: replicar os dados de C1 até obter o mesmo número de C2 ou, selecionar, dentre as instancias de C2, apenas X casos, onde X é o número de instancias em C1. Para ambas as abordagens, os arquivos de treinamento, validação e teste (depois de equilibrado o número de exemplos de cada classe) são randomizados. Mais detalhes sobre a preparação dos dados para a construção da rede podem ser vistos na Tabela 1
Abordagem Treinamento Validação Teste
Classe 1 Classe 2 Classe 1 Classe 2 Classe 1 Classe 2
Replicar 19989 19989 9994 9994 9994 175
Reduzir 350 350 175 175 9994 175 Tabela 1
Neste trabalho, a fim de tentar construir a rede com melhor configuração possível para classificar os dados do problema de Cross-Selling, serão feitas várias combinações nas configurações de uma rede MLP com 46 entradas, uma camada escondida e duas saídas. Inicialmente serão feitos testes usando a abordagem de Replicar, após as combinações iniciais serão selecionadas algumas e serão testadas na abordagem Reduzir. Os parâmetros testados estão descritos na Tabela 2
Parâmetro Valores
Taxa de Aprendizado 0.0001 0.001 0.01
Nº de nós da camada intermediária 1 6 36
Numero máximo de iterações de treinamento 50 250 1250
Função de ativação Sigmóide Logística Tangente Hiperbólica
Algoritmo de aprendizagem Back Propagation Levenberg-Marquardt
Tabela 2 configurações analisadas
Pág. 9
Número de nós da camada intermediária: Determinar o número de neurônios da camada intermediária é importante para garantir que a rede será capaz de gerar uma superfície complexa o suficiente para resolver aquele problema e para isso quanto mais neurônios melhor, ao mesmo tempo é importante não definir um valor muito grande a fim de evitar o overfitting e também para reduzir o tempo de treinamento.
Número máximo de iterações Este número indica o máximo de vezes que será apresentada à rede o conjunto de treinamento. É importante porque deverá ser balanceado de modo que não seja nem muito grande a ponto de ocorrer uma memorização, nem muito pequeno a ponto de não ser suficiente para que a rede entenda e generalize a questão chegando a seu melhor desempenho.
Número máximo de erros no conjunto validação Este número é de extrema importância, pois auxilia na prevenção de que haja um overfitting na rede. Quando ocorre o treinamento, de forma intercalada a esse processo, o conjunto de validação vai sendo apresentado de forma a ser um critério de parada caso a rede erre tantas vezes consecutivas. Este número teve um valor fixo para todos os experimentos utilizados sendo igual a 50.
Taxa de aprendizagem Essa taxa determina o quanto vamos mexer nos pesos da rede caso ela erre ao tentar classificar um padrão de treinamento. Uma taxa alta causa instabilidade e oscilações muito fortes nos números, sendo prejudicial na aprendizagem de fato, enquanto números muito baixos tornam o aprendizado lento Para medir o desempenho das configurações da rede, foram utilizados as seguintes formas de avaliação:
� MSE (Mean Squared Error): É uma forma de quantificar o quanto uma estimativa pode diferir do valor real. Foram escolhidas as configurações que geraram menor erro.
� Curva ROC (Receiver Operating Characteristic): Esta forma de avaliação faz uma comparação da taxa de verdadeiros positivos contra a de falsos positivos. Quanto maior o valor da área sob a curva, melhor o resultado.
� Matriz de Confusão: Oferece uma visualização fácil do número de classificações corretas e erradas para cada classe. Buscamos concentrar os valores na diagonal principal, para indicar que eles estão sendo classificados corretamente.
Pág. 10
Detalhamento dos Experimentos
Abordagem 1 (Replicar)
Algoritmo de aprendizagem: Gradient descent backpropagation
Configuração
Número de iterações de treinamento 50
Taxa de aprendizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.41108
MSE Validação 0.40862
MSE Teste 0.07040
Taxa de erro % (TESTE) 1.72075
Área sob a Curva 0.527
Pág. 11
Configuração
Número de iterações de treinamento 250
Taxa de aprendizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.43002
MSE Validação 0.42043
MSE Teste 0.42486
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.466
Pág. 12
Configuração
Número de iterações de treinamento 1250
Taxa de aprendizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.85 0.15
C2 0.88 0.12
Resultados
MSE Treinamento 0.43002
MSE Validação 0.42243
MSE Teste 0.52486
Taxa de erro % (TESTE) 86.5191
Área sob a curva 0.500
Pág. 13
Configuração
Número de iterações de treinamento 50
Taxa de aprendizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.33 0.67
C2 0.30 0.70
Resultados
MSE Treinamento 0.45257
MSE Validação 0.44635
MSE Teste 0.41200
Taxa de erro % (TESTE) 31.04228
Área sob a Curva 0.500
Pág. 14
Configuração
Número de iterações de treinamento 250
Taxa de aprendizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.95 0.05
C2 0.95 0.05
Resultados
MSE Treinamento 0.38705
MSE Validação 0.38686
MSE Teste 0.58861
Taxa de erro % (TESTE) 93.05801
Área sob a curva 0.545
Pág. 15
Configuração
Número de iterações de treinamento 1250
Taxa de aprendizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37514
MSE Validação 0.37454
MSE Teste 0.14473
Taxa de erro % (TESTE) 1.81908
Área sob a curva 0.508
Pág. 16
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.15 0.85
C2 0.13 0.87
Resultados
MSE Treinamento 0.42900
MSE Validação 0.43000
MSE Teste 0.33505
Taxa de erro % (TESTE) 14.61160
Área sob a curva 0.554
Pág. 17
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.43553
MSE Validação 0.43539
MSE Teste 0.04381
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.475
Pág. 18
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37988
MSE Validação 0.37973
MSE Teste 0.10980
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.534
Pág. 19
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.94 0.06
C2 0.97 0.03
Resultados
MSE Treinamento 0.40187
MSE Validação 0.40550
MSE Teste 0.53514
Taxa de erro % (TESTE) 95.87021
Área sob a curva 0.520
Pág. 20
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.63 0.37
C2 0.65 0.35
Resultados
MSE Treinamento 0.46871
MSE Validação 0.46522
MSE Teste 0.47224
Taxa de erro % (TESTE) 64.86726
Área sob a curva 0.520
Pág. 21
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.98 0.02
C2 0.98 0.02
Resultados
MSE Treinamento 0.41488
MSE Validação 0.41198
MSE Teste 0.65118
Taxa de erro % (TESTE) 96.59784
Área sob a curva 0.508
Pág. 22
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.16142
MSE Validação 0.26122
MSE Teste 0.02630
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.495
Pág. 23
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.79 0.21
C2 0.76 0.24
Resultados
MSE Treinamento 0.42761
MSE Validação 0.42173
MSE Teste 0.47131
Taxa de erro % (TESTE) 75.05408
Área sob a curva 0.508
Pág. 24
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 0.36993
MSE Validação 0.37469
MSE Teste 0.63007
Taxa de erro % (TESTE) 98.27925
Área sob a curva 0.505
Pág. 25
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37985
MSE Validação 0.38764
MSE Teste 0.10659
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.556
Pág. 26
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.01 0.99
C2 0.01 0.99
Resultados
MSE Treinamento 0.43735
MSE Validação 0.43850
MSE Teste 0.35244
Taxa de erro % (TESTE) 2.88102
Área sob a curva 0.538
Pág. 27
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.65 0.35
C2 0.63 0.37
Resultados
MSE Treinamento 0.30885
MSE Validação 0.32397
MSE Teste 0.36292
Taxa de erro % (TESTE) 62.28122
Área sob a curva 0.534
Pág. 28
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.22 0.78
C2 0.20 0.80
Resultados
MSE Treinamento 0.45980
MSE Validação 0.46366
MSE Teste 0.43581
Taxa de erro % (TESTE) 20.62930
Área sob a curva 0.531
Pág. 29
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.92 0.08
C2 0.93 0.07
Resultados
MSE Treinamento 0.45632
MSE Validação 0.44496
MSE Teste 0.49184
Taxa de erro % (TESTE) 91.58309
Área sob a curva 0.510
Pág. 30
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 0.45042
MSE Validação 0.45360
MSE Teste 0.87598
Taxa de erro % (TESTE) 98.03343
Área sob a curva 0.510
Pág. 31
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.22 0.78
C2 0.22 0.78
Resultados
MSE Treinamento 0.46697
MSE Validação 0.47104
MSE Teste 0.44598
Taxa de erro % (TESTE) 22.67453
Área sob a curva 0.527
Pág. 32
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 0.41400
MSE Validação 0.41122
MSE Teste 0.76109
Taxa de erro % (TESTE) 98.26942
Área sob a curva 0.549
Pág. 33
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.78 0.22
C2 0.69 0.31
Resultados
MSE Treinamento 0.36227
MSE Validação 0.36945
MSE Teste 0.43595
Taxa de erro % (TESTE) 68.51524
Área sob a curva 0.561
Pág. 34
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.82 0.18
C2 0.82 0.18
Resultados
MSE Treinamento 0.42502
MSE Validação 0.41908
MSE Teste 0.46188
Taxa de erro % (TESTE) 80.86529
Área sob a curva 0.561
Pág. 35
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.95 0.05
C2 0.92 0.08
Resultados
MSE Treinamento 0.31837
MSE Validação 0.32278
MSE Teste 0.45305
Taxa de erro % (TESTE) 90.23599
Área sob a curva 0.530
Pág. 36
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.49 0.51
C2 0.50 0.50
Resultados
MSE Treinamento 0.28023
MSE Validação 0.28406
MSE Teste 0.30548
Taxa de erro % (TESTE) 50.31465
Área sob a curva 0.564
Pág. 37
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 1.43132
MSE Validação 1.42772
MSE Teste 2.08993
Taxa de erro % (TESTE) 98.27925
Área sob a curva 0.615
Pág. 38
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.80 0.20
C2 0.84 0.16
Resultados
MSE Treinamento 1.95986
MSE Validação 1.94487
MSE Teste 2.14796
Taxa de erro % (TESTE) 83.20551
Área sob a curva 0.574
Pág. 39
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.97 0.03
C2 0.99 0.01
Resultados
MSE Treinamento 0.44146
MSE Validação 0.43192
MSE Teste 0.79674
Taxa de erro % (TESTE) 97.04031
Área sob a curva 0.518
Pág. 40
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.01 0.99
Resultados
MSE Treinamento 0.43097
MSE Validação 0.44140
MSE Teste 0.10275
Taxa de erro % (TESTE) 2.56637
Área sob a curva 0.525
Pág. 41
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.29 0.71
C2 0.27 0.73
Resultados
MSE Treinamento 2.08621
MSE Validação 2.08653
MSE Teste 1.94310
Taxa de erro % (TESTE) 27.70895
Área sob a curva 0.574
Pág. 42
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.07 0.93
C2 0.05 0.95
Resultados
MSE Treinamento 0.40148
MSE Validação 0.40859
MSE Teste 0.17922
Taxa de erro % (TESTE) 6.40118
Área sob a curva 0.476
Pág. 43
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.53926
MSE Validação 0.55301
MSE Teste 0.09637
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.518
Pág. 44
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Resultados
MSE Treinamento 0.44633
MSE Validação 0.43545
MSE Teste 0.42034
Taxa de erro % (TESTE) 35.99803
Área sob a curva 0.574
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.41 0.59
C2 0.36 0.64
Pág. 45
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37488
MSE Validação 0.37590
MSE Teste 0.09637
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.474
Pág. 46
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.92 0.08
C2 0.90 0.10
Resultados
MSE Treinamento 2.14872
MSE Validação 2.11630
MSE Teste 2.21210
Taxa de erro % (TESTE) 88.53491
Área sob a curva 0.520
Pág. 47
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 1.42674
MSE Validação 1.43290
MSE Teste 0.50962
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.546
Pág. 48
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 1.92881
MSE Validação 1.90629
MSE Teste 2.15984
Taxa de erro % (TESTE) 98.20059
Área sob a curva 0.496
Pág. 49
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.33 0.67
C2 0.34 0.66
Resultados
MSE Treinamento 0.54818
MSE Validação 0.57503
MSE Teste 0.44362
Taxa de erro % (TESTE) 34.38545
Área sob a curva 0.531
Pág. 50
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 1.39815
MSE Validação 1.39228
MSE Teste 2.26710
Taxa de erro % (TESTE) 98.27925
Área sob a curva 0.513
Pág. 51
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.41987
MSE Validação 0.43376
MSE Teste 0.22130
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.545
Pág. 52
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.03 0.97
C2 0.04 0.96
Resultados
MSE Treinamento 0.41987
MSE Validação 0.43376
MSE Teste 0.22130
Taxa de erro % (TESTE) 5.61455
Área sob a curva 0.565
Pág. 53
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.37 0.63
C2 0.42 0.58
Resultados
MSE Treinamento 0.28211
MSE Validação 0.28152
MSE Teste 0.28224
Taxa de erro % (TESTE) 42.05506
Área sob a curva 0.509
Pág. 54
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.53 0.47
C2 0.41 0.59
Resultados
MSE Treinamento 0.25655
MSE Validação 0.25400
MSE Teste 0.24817
Taxa de erro % (TESTE) 40.86529
Área sob a curva 0.498
Pág. 55
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.80 0.20
C2 0.83 0.17
Resultados
MSE Treinamento 1.71904
MSE Validação 1.67419
MSE Teste 1.95568
Taxa de erro % (TESTE) 82.32055
Área sob a curva 0.573
Pág. 56
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 1.26223
MSE Validação 1.26899
MSE Teste 0.71528
Taxa de erro % (TESTE) 1.90757
Área sob a curva 0.539
Pág. 57
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.77 0.23
C2 0.83 0.17
Resultados
MSE Treinamento 0.71955
MSE Validação 0.72839
MSE Teste 1.08196
Taxa de erro % (TESTE) 81.65192
Área sob a curva 0.542
Pág. 58
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.98 0.02
C2 0.93 0.07
Resultados
MSE Treinamento 0.40361
MSE Validação 0.41796
MSE Teste 0.51871
Taxa de erro % (TESTE) 91.76008
Área sob a curva 0.530
Pág. 59
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 1.00 0.00
C2 1.00 0.00
Resultados
MSE Treinamento 1.38839
MSE Validação 1.39297
MSE Teste 2.06531
Taxa de erro % (TESTE) 98.21042
Área sob a curva 0.503
Pág. 60
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.64 0.36
C2 0.62 0.38
Resultados
MSE Treinamento 0.33849
MSE Validação 0.34643
MSE Teste 0.36544
Taxa de erro % (TESTE) 61.57325
Área sob a curva 0.519
Pág. 61
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.80 0.20
C2 0.83 0.17
Resultados
MSE Treinamento 0.54210
MSE Validação 0.53835
MSE Teste 0.82860
Taxa de erro % (TESTE) 98.27925
Área sob a curva 0.508
Pág. 62
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.33 0.67
C2 0.24 0.76
Resultados
MSE Treinamento 0.32749
MSE Validação 0.31127
MSE Teste 0.22902
Taxa de erro % (TESTE) 25.08358
Área sob a curva 0.555
Pág. 63
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 36
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.50 0.50
C2 0.35 0.65
Resultados
MSE Treinamento 0.23241
MSE Validação 0.25022
MSE Teste 0.22491
Taxa de erro % (TESTE) 35.13274
Área sob a curva 0.598
Pág. 64
Algoritmo de aprendizagem: Levenberg-Marquardt backpropagation Para este conjunto de experimentos, devido a limitações do Matlab, foram selecionadas apenas algumas configurações dentre aquelas já analisadas.
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.59 0.41
C2 0.31 0.69
Resultados
MSE Treinamento 0.20919
MSE Validação 0.23303
MSE Teste 0.20406
Taxa de erro % (TESTE) 31.37660
Área sob a curva 0.687
Pág. 65
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.54 0.46
C2 0.29 0.71
Resultados
MSE Treinamento 0.20323
MSE Validação 0.24514
MSE Teste 0.20024
Taxa de erro % (TESTE) 29.67552
Área sob a curva 0.689
Pág. 66
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.53 0.47
C2 0.29 0.71
Resultados
MSE Treinamento 0.19908
MSE Validação 0.24806
MSE Teste 0.20260
Taxa de erro % (TESTE) 29.55752
Área sob a curva 0.688
Pág. 67
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.58 0.42
C2 0.30 0.70
Resultados
MSE Treinamento 0.20618
MSE Validação 0.23954
MSE Teste 0.22859
Taxa de erro % (TESTE) 30.45231
Área sob a curva 0.691
Pág. 68
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.53 0.47
C2 0.28 0.72
Resultados
MSE Treinamento 0.20248
MSE Validação 0.24635
MSE Teste 0.20313
Taxa de erro % (TESTE) 28.70206
Área sob a curva 0.690
Pág. 69
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.35455
MSE Validação 0.36586
MSE Teste 0.11967
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.684
Pág. 70
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.55 0.45
C2 0.28 0.72
Resultados
MSE Treinamento 0.20249
MSE Validação 0.24617
MSE Teste 0.20671
Taxa de erro % (TESTE) 28.32842
Área sob a curva 0.693
Pág. 71
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.65 0.35
C2 0.36 0.64
Resultados
MSE Treinamento 0.19969
MSE Validação 0.24748
MSE Teste 0.23974
Taxa de erro % (TESTE) 36.10619
Área sob a curva 0.672
Pág. 72
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.57 0.43
C2 0.31 0.69
Resultados
MSE Treinamento 0.20228
MSE Validação 0.24678
MSE Teste 0.20406
Taxa de erro % (TESTE) 31.12094
Área sob a curva 0.690
Pág. 73
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.54 0.46
C2 0.33 0.67
Resultados
MSE Treinamento 0.15400
MSE Validação 0.28510
MSE Teste 0.19773
Taxa de erro % (TESTE) 33.09735
Área sob a curva 0.651
Pág. 74
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.80 0.30
C2 0.53 0.47
Resultados
MSE Treinamento 0.14287
MSE Validação 0.32268
MSE Teste 0.29271
Taxa de erro % (TESTE) 52.52704
Área sob a curva 0.593
Pág. 75
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.55 0.45
C2 0.31 0.69
Resultados
MSE Treinamento 0.15747
MSE Validação 0.30081
MSE Teste 0.21247
Taxa de erro % (TESTE) 31.30777
Área sob a curva 0.679
Pág. 76
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.41 0.59
C2 0.21 0.79
Resultados
MSE Treinamento 0.13544
MSE Validação 0.30647
MSE Teste 0.15716
Taxa de erro % (TESTE) 21.38643
Área sob a curva 0.657
Pág. 77
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.49 0.51
C2 0.26 0.74
Resultados
MSE Treinamento 0.12421
MSE Validação 0.37581
MSE Teste 0.21040
Taxa de erro % (TESTE) 26.76500
Área sob a curva 0.631
Pág. 78
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.35 0.65
C2 0.13 0.87
Resultados
MSE Treinamento 0.13392
MSE Validação 0.36347
MSE Teste 0.16030
Taxa de erro % (TESTE) 14.05113
Área sob a curva 0.696
Pág. 79
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.49 0.51
C2 0.29 0.71
Resultados
MSE Treinamento 0.14662
MSE Validação 0.29567
MSE Teste 0.18991
Taxa de erro % (TESTE) 29.58702
Área sob a curva 0.669
Pág. 80
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.78 0.22
C2 0.53 0.47
Resultados
MSE Treinamento 0.12109
MSE Validação 0.36894
MSE Teste 0.30085
Taxa de erro % (TESTE) 52.00590
Área sob a curva 0.680
Pág. 81
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.56 0.44
C2 0.36 0.64
Resultados
MSE Treinamento 0.13749
MSE Validação 0.35413
MSE Teste 0.22942
Taxa de erro % (TESTE) 36.22419
Área sob a curva 0.669
Pág. 82
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.55 0.45
C2 0.27 0.73
Resultados
MSE Treinamento 0.21735
MSE Validação 0.22959
MSE Teste 0.20885
Taxa de erro % (TESTE) 27.42380
Área sob a curva 0.693
Pág. 83
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.56 0.44
C2 0.36 0.64
Resultados
MSE Treinamento 0.22872
MSE Validação 0.26290
MSE Teste 0.24996
Taxa de erro % (TESTE) 36.22419
Área sob a curva 0.561
Pág. 84
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.61 0.39
C2 0.34 0.66
Resultados
MSE Treinamento 0.19890
MSE Validação 0.24630
MSE Teste 0.21830
Taxa de erro % (TESTE) 33.85447
Área sob a curva 0.689
Pág. 85
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37482
MSE Validação 0.37500
MSE Teste 0.13360
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.500
Pág. 86
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.16 0.84
C2 0.06 0.94
Resultados
MSE Treinamento 0.23266
MSE Validação 0.24298
MSE Teste 0.24466
Taxa de erro % (TESTE) 7.24680
Área sob a curva 0.565
Pág. 87
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.61 0.39
C2 0.35 0.65
Resultados
MSE Treinamento 0.19969
MSE Validação 0.24880
MSE Teste 0.21101
Taxa de erro % (TESTE) 35.13274
Área sob a curva 0.675
Pág. 88
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.60 0.44
C2 0.31 0.69
Resultados
MSE Treinamento 0.19976
MSE Validação 0.25028
MSE Teste 0.21087
Taxa de erro % (TESTE) 31.62242
Área sob a curva 0.694
Pág. 89
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.51 0.49
C2 0.27 0.73
Resultados
MSE Treinamento 0.20008
MSE Validação 0.24416
MSE Teste 0.19831
Taxa de erro % (TESTE) 27.46313
Área sob a curva 0.676
Pág. 90
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.62 0.38
C2 0.33 0.67
Resultados
MSE Treinamento 0.19892
MSE Validação 0.24953
MSE Teste 0.21289
Taxa de erro % (TESTE) 32.88102
Área sob a curva 0.693
Pág. 91
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.51 0.49
C2 0.27 0.73
Resultados
MSE Treinamento 0.16079
MSE Validação 0.28372
MSE Teste 0.20768
Taxa de erro % (TESTE) 26.89282
Área sob a curva 0.668
Pág. 92
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.46 0.54
C2 0.21 0.79
Resultados
MSE Treinamento 0.14515
MSE Validação 0.31852
MSE Teste 0.18177
Taxa de erro % (TESTE) 22.04523
Área sob a curva 0.690
Pág. 93
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.53 0.47
C2 0.29 0.71
Resultados
MSE Treinamento 0.15689
MSE Validação 0.33056
MSE Teste 0.19893
Taxa de erro % (TESTE) 29.16421
Área sob a curva 0.665
Pág. 94
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.57 0.43
C2 0.33 0.67
Resultados
MSE Treinamento 0.16820
MSE Validação 0.29261
MSE Teste 0.21978
Taxa de erro % (TESTE) 33.46116
Área sob a curva 0.650
Pág. 95
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.46 0.54
C2 0.20 0.80
Resultados
MSE Treinamento 0.17426
MSE Validação 0.27029
MSE Teste 0.18664
Taxa de erro % (TESTE) 20.23599
Área sob a curva 0.656
Pág. 96
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.99 0.01
C2 1.00 0.00
Resultados
MSE Treinamento 0.33154
MSE Validação 0.38245
MSE Teste 0.58114
Taxa de erro % (TESTE) 97.81711
Área sob a curva 0.657
Pág. 97
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.58 0.42
C2 0.34 0.66
Resultados
MSE Treinamento 0.14328
MSE Validação 0.30606
MSE Teste 0.21300
Taxa de erro % (TESTE) 34.59194
Área sob a curva 0.659
Pág. 98
Configuração
Número de iterações de treinamento 250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.50 0.50
C2 0.25 0.75
Resultados
MSE Treinamento 0.18033
MSE Validação 0.28797
MSE Teste 0.18858
Taxa de erro % (TESTE) 25.69322
Área sob a curva 0.671
Pág. 99
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 6
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Levenberg-Marquardt
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.59 0.41
C2 0.36 0.64
Resultados
MSE Treinamento 0.15976
MSE Validação 0.29584
MSE Teste 0.23285
Taxa de erro % (TESTE) 35.84071
Área sob a curva 0.667
Pág. 100
Abordagem 2 (Reduzir) Para esta abordagem foram escolhidas as 5 melhores configurações de toda a abordagem anterior ordenando-as pelo MSE de validação.
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.31 0.69
C2 0.36 0.64
Resultados
MSE Treinamento 0.44149
MSE Validação 0.44455
MSE Teste 0.39563
Taxa de erro % (TESTE) 36.51293
Área sob a curva 0.522
Pág. 101
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.0001
Nós da camada intermediaria 1
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão
Re
spo
sta
de
seja
da Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.41428
MSE Validação 0.41058
MSE Teste 0.07038
Taxa de erro % (TESTE) 1.72092
Área sob a curva 0.505
Pág. 102
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.53830
MSE Validação 0.54414
MSE Teste 0.09663
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.552
Pág. 103
Configuração
Número de iterações de treinamento 1250
Taxa de aprensizagem 0.01
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.00 1.00
Resultados
MSE Treinamento 0.37513
MSE Validação 0.37741
MSE Teste 0.13487
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.657
Pág. 104
Configuração
Número de iterações de treinamento 50
Taxa de aprensizagem 0.001
Nós da camada intermediaria 1
Função de ativação Tangente Hiperbólica
Algoritmo de aprendizagem Gradient descent backpropagation
Matriz de Confusão R
esp
ost
a d
ese
jad
a Resposta da rede
C1 C2
C1 0.00 1.00
C2 0.01 0.99
Resultados
MSE Treinamento 0. 42856
MSE Validação 0. 43564
MSE Teste 0. 10272
Taxa de erro % (TESTE) 2.56637
Área sob a curva 0.450
Pág. 105
Treinamento com melhor configuração Após a comparação dos resultados, a configuração que obteve melhor desempenho (menor MSE) foi repetida 10 vezes para analisar a influencia que a randomização inicial dos pesos teria sobre a rede, e então extrair a média e a variância de desempenho desta rede. O mesmo procedimento foi realizado para a configuração que obteve maior Area sob a curva ROC.
Taxa de Erro(%)
MSE de Teste
Área sob a Curva ROC
1 30.1415 0.11521 0.5 2 58.64307 0.48654 0.55 3 1.72075 0.11232 0.558 4 20.435 0.09843 0.523 5 4.31704 0.27977 0.544 6 18.34989 0.22173 0.532 7 28.38037 0.35849 0.566 8 17.36651 0.23564 0.51 9 27.31832 0.23098 0.663
10 33.2321 0.14791 0.6 Media 23.990455 0.2287 0.5546 Desvio Padrão
15.2502788 0.1166 0.04535
Máximo 58.64307 0.48654 0.663 Mínimo 1.72075 0.09843 0.5
Tabela 3 Repetição do menor MSE
Tabela 4 Repetição do maior AUC
Configuração
Número de iterações de treinamento
50
Taxa de aprensizagem 0.001
Nós da camada intermediaria
6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem
Gradient descent backpropagation
Resultados
MSE Treinamento 0.16142
MSE Validação 0.26122
MSE Teste 0.02630
Taxa de erro % (TESTE) 1.72075
Área sob a curva 0.495
Configuração
Número de iterações de treinamento
1250
Taxa de aprensizagem 0.001
Nós da camada intermediaria
6
Função de ativação Sigmóide Logística
Algoritmo de aprendizagem
Levenberg-Marquardt
Taxa de Erro(%)
MSE de Teste
Área sob a Curva ROC
1 12.3424 0.15221 0.602 2 13.2452 0.22212 0.65 3 5.1871 0.15312 0.658 4 10.2342 0.13042 0.623 5 7.1234 0.09312 0.644 6 10.4941 0.09921 0.532 7 2.01454 0.11234 0.676 8 15.6783 0.07992 0.508 9 7.124 0.12332 0.663
10 3.0456 0.14221 0.6 Media 8.648884 0.15112 0.6156 Desvio Padrão
4.26786308 0.0385090 0.0536
Máximo 15.6783 0.22212 0.676 Mínimo 2.01454 0.07992 0.508
Resultados
MSE Treinamento 0.13392
MSE Validação 0.36347
MSE Teste 0.16030
Taxa de erro % (TESTE) 14.05113
Área sob a curva 0.696
Pág. 106
Análise dos resultados Apesar de serem encontradas, durantes os experimentos, várias configurações que resultaram em MSE baixo, algumas destas se mostraram instavéis, havendo uma grande variancia no valor do MSE quando re-feitas sob nova aleatorização inicial dos pesos. Isto ocorreu principalmente, para configurações com baixa taxa de aprendisagem combinada a baixo número máximo de iterações, e pode indicar que a rede não aprendeu o suficiente do conjunto de treinamento, o resultado positivo (em algumas situações), seria fruto de uma aleatorização inicial favorável. Em contrapartida, outras configurações selecionadas para repetição, cujo o MSE observado inicialmente foi baixo, porém, superior ao das configurações anteriormente mencionadas, tiveram uma variância de MSE até 50% menor durante as repetições. Estas tiveram em geral o número máximo de épocas superior as descritas no primeiro caso. A definição de uma métrica de desempenho das redes neurais analisadas é uma decisão crucial na busca por uma boa resolução para o problema. Isto foi evidenciado pois, das diversas métricas analisadas, em geral as redes que tinham um valor muito elevado para uma destas métricas, tinham um valor mediano para as demais (ex. A rede com menor MSE de teste, tinha uma area sob a curva ROC ligeiramente abaixo da média). Por fim, foi notado que não há uma fórmula precisa para determinar a configuração da rede que terá melhor desempenho para um dado problema e que para isto muitos experimentos e combinações são de extrema importância.
Pág. 107
Conclusão Construímos máquinas capazes de, seguindo um código estabelecido, efetuar milhares de instruções por segundo. Mas e se fossemos capazes de criar máquinas que pudessem aprender com seus próprios erros? E se elas fossem limitadas, não por falta de programação, mas sim por sua própria experiência? Esse é o objetivo mais intrínseco das redes neurais artificiais. Com uma implementação rápida, essa técnica tem como características a adaptabilidade, tolerância a falhas e ainda capacidade de generalização. Nesse trabalho foi demonstrado o procedimento de construção de uma rede para decidir a qual classe pertence o cliente analisado (dentre as duas classes estabelecidas), tal classificação objetiva direcionamento de produtos para Cross-Selling, entretanto, para utilizar esta técnica para um problema de domínio diferente, poder-se-ia utilizar este estudo como roteiro devido a versatilidade da mesma. Por fim, sugiro como uma possível extensão para este estudo, a aplicação da metodologia aqui adotada sobre outra topologia de rede neural (RBF por exemplo), para uma análise comparativa.
Pág. 108
Bibliografia Alex Frachetta, blog – “Up-Selling e Venturebeat Cross-Selling” Disponível em: http://alex.frachetta.com/2008/09/24/up-selling-e-cross-selling acessado em: 26-05-10
César Frazão, “Venda mais com venda casada” Disponível em: http://www.vendamais.com.br/artigo/42689-venda-mais-com-venda-cruzada.html Acessado em: 26-05-10
Cesar Pinto, “Venda Casada e Automação Comercial” disponível em: http://www.mainretail.com.br/artigos/venda-cruzada.htm acessado em:26-05-10 Cross-Selling Disponível em: http://en.wikipedia.org/wiki/Cross-selling acessado em: 26-05-10
Feedforward neural network Disponível em: http://en.wikipedia.org/wiki/Feedforward_neural_network acessado em: 26-05-10 Germano Vasconcelos “Introdução as Redes Neurais” Disponível em: http://www.cin.ufpe.br/~gcv/web_lci/Aula-introducao-redes-neurais.PDF acessado em: 26-05-10 InvestorWords – “Cross-Selling Definition” Disponível em: http://www.investorwords.com/1224/cross_selling.html acessado em: 26-05-10
Multilayer perceptron Disponível em: http://en.wikipedia.org/wiki/Multilayer_perceptron acessado em: 26-05-10 The MathWorks Diponível em: http://www.mathworks.com/ acessado em 20-05-10 W. A. Kamakura, M Wedel, F de Rosa, JA Mazzon - International Journal of Research in Marketing, 2003 –
“Cross-selling through database marketing: a mixed data factor analyzer for data augmentation and
prediction”.
top related