redes neurais artificiais - cin.ufpe.br

UNIVERSIDADE FEDERAL DE PERNAMBUCO – UFPE CENTRO DE INFOMÁTICA - CIN

Redes Neurais Artificiais Uma abordagem para o problema de Cross-Selling

Recife 29 de junho de 2010

Autor: Rafael Lima [ragpl]

Professor: Germano Vasconcelos

Pág. 1

Sumário Introdução .............................................................................................................................................. 2

Redes Neurais Artificiais ........................................................................................................................ 3

Neurônio de McCulloch & Pitts ............................................................................................................. 5

Redes Multi Layer Perceptron (MLP) ..................................................................................................... 6

Back Propagation ................................................................................................................................... 7

Metodologia de Resolução do Cross-Selling .......................................................................................... 8

Número de nós da camada intermediária: ........................................................................................ 9

Número máximo de iterações ........................................................................................................... 9

Número máximo de erros no conjunto validação ............................................................................. 9

Taxa de aprendizagem ....................................................................................................................... 9

Detalhamento dos Experimentos ........................................................................................................ 10

Abordagem 1 (Replicar) ................................................................................................................... 10

Algoritmo de aprendizagem: Gradient descent backpropagation .............................................. 10

Algoritmo de aprendizagem: Levenberg-Marquardt backpropagation ...................................... 64

Abordagem 2 (Reduzir) .................................................................................................................. 100

Treinamento com melhor configuração ............................................................................................ 105

Analise dos resultados ....................................................................................................................... 106

Conclusão ........................................................................................................................................... 107

Bibliografia ......................................................................................................................................... 108

Pág. 2

Introdução Este trabalho descreve uma metodologia adotada para a construção de uma solução para o problema de classificação, Cross-Selling, através da utilização de uma Rede Neural Artificial.

Podemos definir Cross-Selling como:

“A marketing term for the practice of suggesting related products or services

to a customer who is considering buying something. If you're buying a book on

Amazon.com, for example, you may be shown a list of books similar to the one

you've chosen or books purchased by other customers that bought the same

book you did”

Cambridge Dictionary

O Cross-Selling é uma estratégia de marketing, utilizada por estabelecimentos comerciais, tanto para manter o vínculo com um cliente, como para aumentar a receita gerada por cada cliente, podemos citar como exemplo clássico dessa prática a típica frase dita pelos vendedores de fast food: “Deseja fritas pra acompanhar senhor?!”.

O processo funciona da seguinte forma: analisa-se o perfil de um cliente do estabelecimento, por exemplo, e identificam-se outras pessoas que têm as mesmas características - sexo, idade, estado civil, faixa de renda - e, portanto, têm mais propensão a comprar esse mesmo tipo de produto. Os custos de implementação, operacional e de manutenção deste sistema são justificados por serem inferiores ao custo de atingir um novo cliente. "O custo de colocação de um novo produto para uma

pessoa que já é nossa segurada é quatro vezes menor do que para uma pessoa que não era nossa

cliente" [Jorge Nasser, diretor de Marketing do grupo Bradesco].

A Amazon, por exemplo, tem 35% de suas vendas providas de cross-sells e recomendações. No entanto, para conseguir realizá-lo de forma apropriada, é preciso haver uma infra-estrutura de informação muito eficiente. Entretanto, é imprescindível que o Cross-Selling seja feito de forma moderada e conveniente, dependendo da abordagem utilizada, o cliente pode interpretar como uma venda agressiva, gerando riscos de romper esta relação comercial, por isto, é importante garantir que o produto ou serviço a ser oferecido possua algum valor para ele, cubra as suas necessidades e que eles ainda não o possuam. As inúmeras variáveis envolvidas, a complexidade e imprecisão dos comportamentos dos clientes tornariam o processo muito difícil e custoso para ser calculado de forma algorítmica e, por isto, neste trabalho proporemos uma abordagem de solução baseada em redes neurais.

Pág. 3

Redes Neurais Artificiais Redes Neurais Artificiais (RNA) é um paradigma conexionista utilizado para a resolução de problemas linearmente ou não linearmente separáveis. Este paradigma modela uma estrutura computacional que tem sua concepção e desenvolvimento embasados em estudos de vários campos do conhecimento (computação, psicologia, biologia, física entre outros), com o intuito de prover uma estrutura capaz de aprendizado baseado em exemplos, simulando muitas vezes, o comportamento do cérebro (daí a origem do nome).

Figura 1 Representação de uma rede neural artificial

As RNAs têm sido usadas em inúmeras áreas do conhecimento, como processamento de sinais, análise de imagens médicas, sistemas de diagnóstico, previsões de séries temporais, reconhecimento de caracteres manuscritos, sistemas metrológico, modelagem de comportamento de agentes autônomos, dentre outros. Um problema tipicamente solucionável com RNAs deve ser descrito como um problema de reconhecimento de padrões ou de aproximação de uma função. Para os casos de reconhecimento de padrões uma RNA deve classificar um padrão de entrada dentre os de saída, mesmo sem nunca ter visto o referido padrão. Uma característica limitante das RNAs é sua incapacidade de trabalhar com dados não numéricos, isto é, para um problema cujo domínio lida com grandezas não numéricas, as entradas precisam ser pré-processadas e, segundo critérios estabelecidos caso a caso, convertidas em valores numéricos para que a rede possa então funcionar. Existem diversas topologias que podem ser utilizadas para a construção de uma RNA, dentre as mais conhecidas estão:

• Perceptron

• Multi-Layer Perceptron

• Redes de Funções de Base Radial

• Modelo de Hopfield

• Modelo de Kohonen

• Modelos ART

• Cascade-correlation (CASCOR)

Pág. 4

Cada topologia possui características específicas que as tornam mais apropriadas, ou as incapacitam, para solucionar certo grupo de problemas (por exemplo, redes do tipo perceptron só são capazes de solucionar problemas linearmente separáveis), podemos diferenciar as diversas topologias de rede neural analisando:

• Tipo de aprendizado o Supervisionado o Não supervisionado o Por reforço

• Técnica de aprendizado o Clustering o Gradiente descendente o DDA

• Função de ativação o Funções sigmóide o Função gaussiana o Função degrau

• Regra de propagação o Soma ponderada o Distancia euclidiana

• Características diversas o Conexões laterais o Winner takes all

A escolha da topologia da rede neural utilizada em cada aplicação é uma decisão extremamente importante e pode limitar o desempenho da solução, portanto, deve ser tomada por alguém que entenda o domínio do problema. É desejável que uma RNA apresente as seguintes características:

• Aprendizagem através de exemplos

• Inferência estatística não paramétrica

• Adaptabilidade

• Capacidade de generalização

• Tolerância a ruídos

Pág. 5

Neurônio de McCulloch & Pitts O neurônio artificial é a unidade básica da arquitetura das redes neurais artificiais. Na estrutura do neurônio observa-se:

• Um conjunto de entradas, cada qual relacionada a um peso, que fornecem os sinais ao neurônio;

• Uma função de ativação que relaciona as entradas a um limiar a fim de definir se o neurônio será

ativado ao não.

• Uma saída, que em termos gerais, é a ativação, ou não, do neurônio

Figura 0 Modelo de um neurônio artificial

Na Figura 2 cada wi representa os pesos associados com as entradas xi. Φ é a função de ativação (esta função tem inspiração biológica, simula o limiar de excitação do neurônio, parâmetro este que indica a intensidade do estimulo necessária para um neurônio despolarizar). A saída do neurônio é obtida aplicando às entradas a regra de propagação, para então, submeter o valor obtido a função de ativação, que gerará a saída, dizendo se o neurônio ativa, ou não.

Pág. 6

Redes Multi Layer Perceptron (MLP) Uma rede Multi Layer Perceptron utiliza como estrutura básica o neurônio de McCulloch & Pitts, dispondo estas unidades em camadas, as quais recebem informações da camada imediatamente anterior e provêem informações para a seguinte, nesta topologia não há conexões entre os neurônios de uma mesma camada (conexões laterais), por isso diz-se que é uma rede feedforward. Redes MLP são capazes de resolver problemas complexos ditos não linearmente separáveis, e por isto são amplamente difundidas para diversos tipos de aplicação. Apesar de não existir limitação para o número de camadas, estudos comprovam que uma rede MLP com uma única camada escondida é capaz de aproximar qualquer função continua definida em um hipercubo o que permite muitas vezes aproximar a solução de problemas extremamente complexos. Entretanto não há garantia de convergência e a rede pode cair em um mínimo local, o que torna em certos casos o aprendizado lento. O principal algoritmo de aprendizagem utilizados em redes MLP é o Back propagation (que será descrito nó próximo tópico), e esta combinação (MLP + Back propagation) é a solução padrão para muitos casos de reconhecimento de padrões com aprendizagem supervisionada e objeto de investigações em andamento no campo na neurociência computacional e processamento paralelo distribuído. Atualmente é possível encontrar redes MLP para resolver problemas de: speech recognition, image recognition, machine translation software e cyber security.

Back Propagation O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposiçõesem uma RNA, são elas:

• Função de ativaç

• Função de ativação precisa ser

Mesmo satisfazendo essas restrições, com a utilização do convergênciatreinamento ocorre em duas fases, e backward. Forward: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos neurônios, resultante, tal vrestrições mencionadasrepresenta o estado de ativação do através das sinapses de saídamesma camadaentão comparada com o resultado desejado. em caso de erro inicia Backward: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os determiná-matemáticas para tentar estimarcálculos pode ser visto na

Back Propagation

O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposiçõesem uma RNA, são elas:

Função de ativaç

Função de ativação precisa ser

Mesmo satisfazendo essas restrições, com a utilização do convergência da rede, isto é, a rede

amento ocorre em duas fases, e .

: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meioos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos

estes recebem os “resultante, tal valor é utilizadorestrições mencionadasrepresenta o estado de ativação do

das sinapses de saídamesma camada, camada após camada, então comparada com o resultado desejado. em caso de erro inicia-

A partir das informações: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os

-lo com precisãomatemáticas para tentar estimarcálculos pode ser visto na

Back Propagation

O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede. Existem algumas imposições que precisam ser respeitadas para a utilizaem uma RNA, são elas:

Função de ativação precisa ser

Mesmo satisfazendo essas restrições, com a utilização do da rede, isto é, a rede

amento ocorre em duas fases, e

estes recebem os “estímulosalor é utilizado como

restrições mencionadas, um exemplo bastante utilizado são as funções representa o estado de ativação do

das sinapses de saída. Este processo ocorre paralelamente entre os , camada após camada,

então comparada com o resultado desejado. -se a fase backward

A partir das informações: reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p“mascarado” entre os diversos

com precisão. O matemáticas para tentar estimarcálculos pode ser visto na Figura 3

O algoritmo de aprendizado mais utilizado para redes MLP é o algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.

que precisam ser respeitadas para a utiliza

ão precisa ser diferençável

Função de ativação precisa ser monotônica

Mesmo satisfazendo essas restrições, com a utilização do da rede, isto é, a rede construída

amento ocorre em duas fases, e cada fase

estímulos” e utilizam uma regra de propagação para calcular o valor como parâmetro

, um exemplo bastante utilizado são as funções representa o estado de ativação do neurônio

. Este processo ocorre paralelamente entre os , camada após camada, até que

então comparada com o resultado desejado. backward.

A partir das informações: resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída de classificação, entretanto a partir do p

diversos neurônios . O Back Propagation

matemáticas para tentar estimar o erro e fazer o reajuste dos pesos, o esquema simplificado dos Figura 3.

F i gu ra 3

diferençável em todos os pontos

Mesmo satisfazendo essas restrições, com a utilização do construída pode corresponder a um mcada fase percorre a rede em um sentido:

: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro contato dos dados com a rede ocorre por meio de uma camada de préos dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos

” e utilizam uma regra de propagação para calcular o valor parâmetro em uma função de ativação

, um exemplo bastante utilizado são as funções neurônio atual, que é passado para as camadas

. Este processo ocorre paralelamente entre os até que seja atingida a

então comparada com o resultado desejado. Em caso de acerto passa

resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. Esta não é uma tarefa simples, na camada de saída a rede de classificação, entretanto a partir do primeiro passo

e sinapses de cadaropagation se utiliza então de diversas formulações

o erro e fazer o reajuste dos pesos, o esquema simplificado dos

F i gu ra 3

em todos os pontos

Mesmo satisfazendo essas restrições, com a utilização do Back Propagation,

pode corresponder a um mpercorre a rede em um sentido:

: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro de uma camada de pré

os dados se inserem na rede e prosseguem para a próxima camada, onde são processados pelos ” e utilizam uma regra de propagação para calcular o valor

uma função de ativação , um exemplo bastante utilizado são as funções

atual, que é passado para as camadas . Este processo ocorre paralelamente entre os

seja atingida a camada de saída. A saída da rede é Em caso de acerto passa

resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas maté as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.

a rede tem como mensurar exatamente o erro rimeiro passo backward

e sinapses de cada camada, sendo assim, se utiliza então de diversas formulações

O algoritmo de aprendizado mais utilizado para redes MLP é o back propagationalgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.

que precisam ser respeitadas para a utilização do

Back Propagation,

pode corresponder a um mpercorre a rede em um sentido:

: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro de uma camada de pré-processamento. A partir daí,

uma função de ativação -, um exemplo bastante utilizado são as funções sigmóide

atual, que é passado para as camadas . Este processo ocorre paralelamente entre os

camada de saída. A saída da rede é Em caso de acerto passa-se para o

resposta da rede | resposta de desejada, reajusta os valores dos pesos das conexões, começando pelas camadas mais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.

tem como mensurar exatamente o erro backward este valor do erro fica

camada, sendo assim, se utiliza então de diversas formulações

propagation. Estealgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.

ção do Back P

Back Propagation, não há garantias de pode corresponder a um mínimo local.

percorre a rede em um sentido:

: inicialmente, um padrão de treinamento é colocado como entrada na rede. Este primeiro processamento. A partir daí,

- que deve obedecer as sigmóide – e o resultado

atual, que é passado para as camadas . Este processo ocorre paralelamente entre os neurônios

camada de saída. A saída da rede é se para o próximo

resposta da rede | resposta de desejada, a fase ais externas e propagando

até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado. tem como mensurar exatamente o erro

este valor do erro fica camada, sendo assim,

se utiliza então de diversas formulações o erro e fazer o reajuste dos pesos, o esquema simplificado dos

Pág. 7

. Este é umalgoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.

Back Propagation

não há garantias de ínimo local. O

percorre a rede em um sentido: forward e

que deve obedecer as e o resultado

atual, que é passado para as camadas seguintes neurônios de uma

camada de saída. A saída da rede é próximo padrão,

a fase backward

ais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.

tem como mensurar exatamente o erro este valor do erro fica

camada, sendo assim, impossívelse utiliza então de diversas formulações

um algoritmo supervisionado, que utiliza pares (entrada, saída desejada) para ajustar os pesos da rede.

ropagation

não há garantias de O e

que deve obedecer as e o resultado

seguintes de uma

camada de saída. A saída da rede é padrão,

backward

ais externas e propagando até as camadas iniciais, de modo a tentar fazer a rede aprender aquele exemplo que foi errado.

tem como mensurar exatamente o erro este valor do erro fica

impossível se utiliza então de diversas formulações

Pág. 8

Metodologia de Resolução do Cross-Selling Como forma de exercitar e avaliar o conteúdo visto na disciplina de redes neurais foi proposto como atividade desenvolver uma RNA para resolução do problema de Cross-Selling (previamente explicado neste documento). A base de dados utilizada foi disponibilizada pelo professor Germano Vasconcelos, no site da disciplina de redes neurais (http://www.cin.ufpe.br/~gcv/web_lci/intro.html) e é formada por 40.700 casos, classificados em entre duas classes e catalogados em um único arquivo. Como primeiro passo de processamento destes dados, foi feita uma varredura em busca de inconsistências, neste momento foram detectados 23 casos repetidos dentro da base, tal situação não pode ocorrer (os casos repetidos seriam mais “memorizados” que os outros, influenciando na resposta da rede), então, estes foram excluídos da base. De posse dos dados sem repetição, o arquivo foi separado em 2 sub arquivos cada qual contendo apenas exemplos de uma classe, o que totalizou 700 exemplos em C1 e 39978 exemplos em C2. A divisão dos conjuntos de treinamento, validação e teste foi feita, individualmente em cada sub arquivo, obedecendo aos percentuais de 50%, 25% e 25% respectivamente, após esta separação é necessário equilibrar o número absoluto de casos de cada classe nos conjuntos de treinamento e validação, e para isso foram adotadas duas abordagens: replicar os dados de C1 até obter o mesmo número de C2 ou, selecionar, dentre as instancias de C2, apenas X casos, onde X é o número de instancias em C1. Para ambas as abordagens, os arquivos de treinamento, validação e teste (depois de equilibrado o número de exemplos de cada classe) são randomizados. Mais detalhes sobre a preparação dos dados para a construção da rede podem ser vistos na Tabela 1

Abordagem Treinamento Validação Teste

Classe 1 Classe 2 Classe 1 Classe 2 Classe 1 Classe 2

Replicar 19989 19989 9994 9994 9994 175

Reduzir 350 350 175 175 9994 175 Tabela 1

Neste trabalho, a fim de tentar construir a rede com melhor configuração possível para classificar os dados do problema de Cross-Selling, serão feitas várias combinações nas configurações de uma rede MLP com 46 entradas, uma camada escondida e duas saídas. Inicialmente serão feitos testes usando a abordagem de Replicar, após as combinações iniciais serão selecionadas algumas e serão testadas na abordagem Reduzir. Os parâmetros testados estão descritos na Tabela 2

Parâmetro Valores

Taxa de Aprendizado 0.0001 0.001 0.01

Nº de nós da camada intermediária 1 6 36

Numero máximo de iterações de treinamento 50 250 1250

Função de ativação Sigmóide Logística Tangente Hiperbólica

Algoritmo de aprendizagem Back Propagation Levenberg-Marquardt

Tabela 2 configurações analisadas

Pág. 9

Número de nós da camada intermediária: Determinar o número de neurônios da camada intermediária é importante para garantir que a rede será capaz de gerar uma superfície complexa o suficiente para resolver aquele problema e para isso quanto mais neurônios melhor, ao mesmo tempo é importante não definir um valor muito grande a fim de evitar o overfitting e também para reduzir o tempo de treinamento.

Número máximo de iterações Este número indica o máximo de vezes que será apresentada à rede o conjunto de treinamento. É importante porque deverá ser balanceado de modo que não seja nem muito grande a ponto de ocorrer uma memorização, nem muito pequeno a ponto de não ser suficiente para que a rede entenda e generalize a questão chegando a seu melhor desempenho.

Número máximo de erros no conjunto validação Este número é de extrema importância, pois auxilia na prevenção de que haja um overfitting na rede. Quando ocorre o treinamento, de forma intercalada a esse processo, o conjunto de validação vai sendo apresentado de forma a ser um critério de parada caso a rede erre tantas vezes consecutivas. Este número teve um valor fixo para todos os experimentos utilizados sendo igual a 50.

Taxa de aprendizagem Essa taxa determina o quanto vamos mexer nos pesos da rede caso ela erre ao tentar classificar um padrão de treinamento. Uma taxa alta causa instabilidade e oscilações muito fortes nos números, sendo prejudicial na aprendizagem de fato, enquanto números muito baixos tornam o aprendizado lento Para medir o desempenho das configurações da rede, foram utilizados as seguintes formas de avaliação:

� MSE (Mean Squared Error): É uma forma de quantificar o quanto uma estimativa pode diferir do valor real. Foram escolhidas as configurações que geraram menor erro.

� Curva ROC (Receiver Operating Characteristic): Esta forma de avaliação faz uma comparação da taxa de verdadeiros positivos contra a de falsos positivos. Quanto maior o valor da área sob a curva, melhor o resultado.

� Matriz de Confusão: Oferece uma visualização fácil do número de classificações corretas e erradas para cada classe. Buscamos concentrar os valores na diagonal principal, para indicar que eles estão sendo classificados corretamente.

Pág. 10

Detalhamento dos Experimentos

Abordagem 1 (Replicar)

Algoritmo de aprendizagem: Gradient descent backpropagation

Configuração

Número de iterações de treinamento 50

Taxa de aprendizagem 0.0001

Nós da camada intermediaria 1

Função de ativação Sigmóide Logística

Algoritmo de aprendizagem Gradient descent backpropagation

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Treinamento 0.41108

MSE Validação 0.40862

MSE Teste 0.07040

Taxa de erro % (TESTE) 1.72075

Área sob a Curva 0.527

Pág. 11

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.42486

Área sob a curva 0.466

Pág. 12

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.85 0.15

C2 0.88 0.12

Resultados

MSE Teste 0.52486

Pág. 13

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.33 0.67

C2 0.30 0.70

Resultados

MSE Teste 0.41200

Área sob a Curva 0.500

Pág. 14

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.95 0.05

C2 0.95 0.05

Resultados

MSE Teste 0.58861

Pág. 15

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.14473

Pág. 16

Configuração

Taxa de aprensizagem 0.01

Matriz de Confusão

da Resposta da rede

C1 0.15 0.85

C2 0.13 0.87

Resultados

MSE Teste 0.33505

Pág. 17

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.04381

Pág. 18

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.10980

Pág. 19

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.94 0.06

C2 0.97 0.03

Resultados

MSE Teste 0.53514

Pág. 20

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.63 0.37

C2 0.65 0.35

Resultados

MSE Teste 0.47224

Pág. 21

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.98 0.02

C2 0.98 0.02

Resultados

MSE Teste 0.65118

Pág. 22

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.02630

Pág. 23

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.79 0.21

C2 0.76 0.24

Resultados

MSE Teste 0.47131

Pág. 24

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 0.63007

Pág. 25

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.10659

Pág. 26

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.01 0.99

C2 0.01 0.99

Resultados

MSE Teste 0.35244

Pág. 27

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.65 0.35

C2 0.63 0.37

Resultados

MSE Teste 0.36292

Pág. 28

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.22 0.78

C2 0.20 0.80

Resultados

MSE Teste 0.43581

Pág. 29

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.92 0.08

C2 0.93 0.07

Resultados

MSE Teste 0.49184

Pág. 30

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 0.87598

Pág. 31

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.22 0.78

C2 0.22 0.78

Resultados

MSE Teste 0.44598

Pág. 32

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 0.76109

Pág. 33

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.78 0.22

C2 0.69 0.31

Resultados

MSE Teste 0.43595

Pág. 34

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.82 0.18

C2 0.82 0.18

Resultados

MSE Teste 0.46188

Pág. 35

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.95 0.05

C2 0.92 0.08

Resultados

MSE Teste 0.45305

Pág. 36

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.49 0.51

C2 0.50 0.50

Resultados

MSE Teste 0.30548

Pág. 37

Configuração

Função de ativação Tangente Hiperbólica

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 2.08993

Pág. 38

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.80 0.20

C2 0.84 0.16

Resultados

MSE Teste 2.14796

Pág. 39

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.97 0.03

C2 0.99 0.01

Resultados

MSE Teste 0.79674

Pág. 40

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.01 0.99

Resultados

MSE Teste 0.10275

Pág. 41

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.29 0.71

C2 0.27 0.73

Resultados

MSE Teste 1.94310

Pág. 42

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.07 0.93

C2 0.05 0.95

Resultados

MSE Teste 0.17922

Pág. 43

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.09637

Pág. 44

Configuração

Resultados

MSE Teste 0.42034

Matriz de Confusão

da Resposta da rede

C1 0.41 0.59

C2 0.36 0.64

Pág. 45

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.09637

Pág. 46

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.92 0.08

C2 0.90 0.10

Resultados

MSE Teste 2.21210

Pág. 47

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.50962

Pág. 48

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 2.15984

Pág. 49

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.33 0.67

C2 0.34 0.66

Resultados

MSE Teste 0.44362

Pág. 50

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 2.26710

Pág. 51

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.22130

Pág. 52

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.03 0.97

C2 0.04 0.96

Resultados

MSE Teste 0.22130

Pág. 53

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.37 0.63

C2 0.42 0.58

Resultados

MSE Teste 0.28224

Pág. 54

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.53 0.47

C2 0.41 0.59

Resultados

MSE Teste 0.24817

Pág. 55

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.80 0.20

C2 0.83 0.17

Resultados

MSE Teste 1.95568

Pág. 56

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.71528

Pág. 57

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.77 0.23

C2 0.83 0.17

Resultados

MSE Teste 1.08196

Pág. 58

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.98 0.02

C2 0.93 0.07

Resultados

MSE Teste 0.51871

Pág. 59

Configuração

Matriz de Confusão

da Resposta da rede

C1 1.00 0.00

C2 1.00 0.00

Resultados

MSE Teste 2.06531

Pág. 60

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.64 0.36

C2 0.62 0.38

Resultados

MSE Teste 0.36544

Pág. 61

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.80 0.20

C2 0.83 0.17

Resultados

MSE Teste 0.82860

Pág. 62

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.33 0.67

C2 0.24 0.76

Resultados

MSE Teste 0.22902

Pág. 63

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.50 0.50

C2 0.35 0.65

Resultados

MSE Teste 0.22491

Pág. 64

Algoritmo de aprendizagem: Levenberg-Marquardt backpropagation Para este conjunto de experimentos, devido a limitações do Matlab, foram selecionadas apenas algumas configurações dentre aquelas já analisadas.

Configuração

Algoritmo de aprendizagem Levenberg-Marquardt backpropagation

Matriz de Confusão

da Resposta da rede

C1 0.59 0.41

C2 0.31 0.69

Resultados

MSE Teste 0.20406

Pág. 65

Configuração

Algoritmo de aprendizagem Levenberg-Marquardt backpropagation

Matriz de Confusão

da Resposta da rede

C1 0.54 0.46

C2 0.29 0.71

Resultados

MSE Teste 0.20024

Pág. 66

Configuração

Algoritmo de aprendizagem Levenberg-Marquardt

Matriz de Confusão

da Resposta da rede

C1 0.53 0.47

C2 0.29 0.71

Resultados

MSE Teste 0.20260

Pág. 67

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.58 0.42

C2 0.30 0.70

Resultados

MSE Teste 0.22859

Pág. 68

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.53 0.47

C2 0.28 0.72

Resultados

MSE Teste 0.20313

Pág. 69

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.11967

Pág. 70

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.55 0.45

C2 0.28 0.72

Resultados

MSE Teste 0.20671

Pág. 71

Configuração

Matriz de Confusão R

a Resposta da rede

C1 0.65 0.35

C2 0.36 0.64

Resultados

MSE Teste 0.23974

Pág. 72

Configuração

a Resposta da rede

C1 0.57 0.43

C2 0.31 0.69

Resultados

MSE Teste 0.20406

Pág. 73

Configuração

a Resposta da rede

C1 0.54 0.46

C2 0.33 0.67

Resultados

MSE Teste 0.19773

Pág. 74

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.80 0.30

C2 0.53 0.47

Resultados

MSE Teste 0.29271

Pág. 75

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.55 0.45

C2 0.31 0.69

Resultados

MSE Teste 0.21247

Pág. 76

Configuração

a Resposta da rede

C1 0.41 0.59

C2 0.21 0.79

Resultados

MSE Teste 0.15716

Pág. 77

Configuração

a Resposta da rede

C1 0.49 0.51

C2 0.26 0.74

Resultados

MSE Teste 0.21040

Pág. 78

Configuração

a Resposta da rede

C1 0.35 0.65

C2 0.13 0.87

Resultados

MSE Teste 0.16030

Pág. 79

Configuração

a Resposta da rede

C1 0.49 0.51

C2 0.29 0.71

Resultados

MSE Teste 0.18991

Pág. 80

Configuração

a Resposta da rede

C1 0.78 0.22

C2 0.53 0.47

Resultados

MSE Teste 0.30085

Pág. 81

Configuração

a Resposta da rede

C1 0.56 0.44

C2 0.36 0.64

Resultados

MSE Teste 0.22942

Pág. 82

Configuração

a Resposta da rede

C1 0.55 0.45

C2 0.27 0.73

Resultados

MSE Teste 0.20885

Pág. 83

Configuração

a Resposta da rede

C1 0.56 0.44

C2 0.36 0.64

Resultados

MSE Teste 0.24996

Pág. 84

Configuração

a Resposta da rede

C1 0.61 0.39

C2 0.34 0.66

Resultados

MSE Teste 0.21830

Pág. 85

Configuração

a Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.13360

Pág. 86

Configuração

a Resposta da rede

C1 0.16 0.84

C2 0.06 0.94

Resultados

MSE Teste 0.24466

Pág. 87

Configuração

a Resposta da rede

C1 0.61 0.39

C2 0.35 0.65

Resultados

MSE Teste 0.21101

Pág. 88

Configuração

a Resposta da rede

C1 0.60 0.44

C2 0.31 0.69

Resultados

MSE Teste 0.21087

Pág. 89

Configuração

a Resposta da rede

C1 0.51 0.49

C2 0.27 0.73

Resultados

MSE Teste 0.19831

Pág. 90

Configuração

a Resposta da rede

C1 0.62 0.38

C2 0.33 0.67

Resultados

MSE Teste 0.21289

Pág. 91

Configuração

a Resposta da rede

C1 0.51 0.49

C2 0.27 0.73

Resultados

MSE Teste 0.20768

Pág. 92

Configuração

a Resposta da rede

C1 0.46 0.54

C2 0.21 0.79

Resultados

MSE Teste 0.18177

Pág. 93

Configuração

a Resposta da rede

C1 0.53 0.47

C2 0.29 0.71

Resultados

MSE Teste 0.19893

Pág. 94

Configuração

a Resposta da rede

C1 0.57 0.43

C2 0.33 0.67

Resultados

MSE Teste 0.21978

Pág. 95

Configuração

a Resposta da rede

C1 0.46 0.54

C2 0.20 0.80

Resultados

MSE Teste 0.18664

Pág. 96

Configuração

a Resposta da rede

C1 0.99 0.01

C2 1.00 0.00

Resultados

MSE Teste 0.58114

Pág. 97

Configuração

a Resposta da rede

C1 0.58 0.42

C2 0.34 0.66

Resultados

MSE Teste 0.21300

Pág. 98

Configuração

a Resposta da rede

C1 0.50 0.50

C2 0.25 0.75

Resultados

MSE Teste 0.18858

Pág. 99

Configuração

a Resposta da rede

C1 0.59 0.41

C2 0.36 0.64

Resultados

MSE Teste 0.23285

Pág. 100

Abordagem 2 (Reduzir) Para esta abordagem foram escolhidas as 5 melhores configurações de toda a abordagem anterior ordenando-as pelo MSE de validação.

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.31 0.69

C2 0.36 0.64

Resultados

MSE Teste 0.39563

Pág. 101

Configuração

Matriz de Confusão

da Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.07038

Pág. 102

Configuração

a Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.09663

Pág. 103

Configuração

a Resposta da rede

C1 0.00 1.00

C2 0.00 1.00

Resultados

MSE Teste 0.13487

Pág. 104

Configuração

a Resposta da rede

C1 0.00 1.00

C2 0.01 0.99

Resultados

MSE Treinamento 0. 42856

MSE Validação 0. 43564

MSE Teste 0. 10272

Pág. 105

Treinamento com melhor configuração Após a comparação dos resultados, a configuração que obteve melhor desempenho (menor MSE) foi repetida 10 vezes para analisar a influencia que a randomização inicial dos pesos teria sobre a rede, e então extrair a média e a variância de desempenho desta rede. O mesmo procedimento foi realizado para a configuração que obteve maior Area sob a curva ROC.

Taxa de Erro(%)

MSE de Teste

Área sob a Curva ROC

1 30.1415 0.11521 0.5 2 58.64307 0.48654 0.55 3 1.72075 0.11232 0.558 4 20.435 0.09843 0.523 5 4.31704 0.27977 0.544 6 18.34989 0.22173 0.532 7 28.38037 0.35849 0.566 8 17.36651 0.23564 0.51 9 27.31832 0.23098 0.663

10 33.2321 0.14791 0.6 Media 23.990455 0.2287 0.5546 Desvio Padrão

15.2502788 0.1166 0.04535

Máximo 58.64307 0.48654 0.663 Mínimo 1.72075 0.09843 0.5

Tabela 3 Repetição do menor MSE

Tabela 4 Repetição do maior AUC

Configuração

Número de iterações de treinamento

Nós da camada intermediaria

Algoritmo de aprendizagem

Gradient descent backpropagation

Resultados

MSE Teste 0.02630

Configuração

Número de iterações de treinamento

Nós da camada intermediaria

Algoritmo de aprendizagem

Levenberg-Marquardt

Taxa de Erro(%)

MSE de Teste

Área sob a Curva ROC

1 12.3424 0.15221 0.602 2 13.2452 0.22212 0.65 3 5.1871 0.15312 0.658 4 10.2342 0.13042 0.623 5 7.1234 0.09312 0.644 6 10.4941 0.09921 0.532 7 2.01454 0.11234 0.676 8 15.6783 0.07992 0.508 9 7.124 0.12332 0.663

10 3.0456 0.14221 0.6 Media 8.648884 0.15112 0.6156 Desvio Padrão

4.26786308 0.0385090 0.0536

Máximo 15.6783 0.22212 0.676 Mínimo 2.01454 0.07992 0.508

Resultados

MSE Teste 0.16030

Pág. 106

Análise dos resultados Apesar de serem encontradas, durantes os experimentos, várias configurações que resultaram em MSE baixo, algumas destas se mostraram instavéis, havendo uma grande variancia no valor do MSE quando re-feitas sob nova aleatorização inicial dos pesos. Isto ocorreu principalmente, para configurações com baixa taxa de aprendisagem combinada a baixo número máximo de iterações, e pode indicar que a rede não aprendeu o suficiente do conjunto de treinamento, o resultado positivo (em algumas situações), seria fruto de uma aleatorização inicial favorável. Em contrapartida, outras configurações selecionadas para repetição, cujo o MSE observado inicialmente foi baixo, porém, superior ao das configurações anteriormente mencionadas, tiveram uma variância de MSE até 50% menor durante as repetições. Estas tiveram em geral o número máximo de épocas superior as descritas no primeiro caso. A definição de uma métrica de desempenho das redes neurais analisadas é uma decisão crucial na busca por uma boa resolução para o problema. Isto foi evidenciado pois, das diversas métricas analisadas, em geral as redes que tinham um valor muito elevado para uma destas métricas, tinham um valor mediano para as demais (ex. A rede com menor MSE de teste, tinha uma area sob a curva ROC ligeiramente abaixo da média). Por fim, foi notado que não há uma fórmula precisa para determinar a configuração da rede que terá melhor desempenho para um dado problema e que para isto muitos experimentos e combinações são de extrema importância.

Pág. 107

Conclusão Construímos máquinas capazes de, seguindo um código estabelecido, efetuar milhares de instruções por segundo. Mas e se fossemos capazes de criar máquinas que pudessem aprender com seus próprios erros? E se elas fossem limitadas, não por falta de programação, mas sim por sua própria experiência? Esse é o objetivo mais intrínseco das redes neurais artificiais. Com uma implementação rápida, essa técnica tem como características a adaptabilidade, tolerância a falhas e ainda capacidade de generalização. Nesse trabalho foi demonstrado o procedimento de construção de uma rede para decidir a qual classe pertence o cliente analisado (dentre as duas classes estabelecidas), tal classificação objetiva direcionamento de produtos para Cross-Selling, entretanto, para utilizar esta técnica para um problema de domínio diferente, poder-se-ia utilizar este estudo como roteiro devido a versatilidade da mesma. Por fim, sugiro como uma possível extensão para este estudo, a aplicação da metodologia aqui adotada sobre outra topologia de rede neural (RBF por exemplo), para uma análise comparativa.

Pág. 108

Bibliografia Alex Frachetta, blog – “Up-Selling e Venturebeat Cross-Selling” Disponível em: http://alex.frachetta.com/2008/09/24/up-selling-e-cross-selling acessado em: 26-05-10

César Frazão, “Venda mais com venda casada” Disponível em: http://www.vendamais.com.br/artigo/42689-venda-mais-com-venda-cruzada.html Acessado em: 26-05-10

Cesar Pinto, “Venda Casada e Automação Comercial” disponível em: http://www.mainretail.com.br/artigos/venda-cruzada.htm acessado em:26-05-10 Cross-Selling Disponível em: http://en.wikipedia.org/wiki/Cross-selling acessado em: 26-05-10

Feedforward neural network Disponível em: http://en.wikipedia.org/wiki/Feedforward_neural_network acessado em: 26-05-10 Germano Vasconcelos “Introdução as Redes Neurais” Disponível em: http://www.cin.ufpe.br/~gcv/web_lci/Aula-introducao-redes-neurais.PDF acessado em: 26-05-10 InvestorWords – “Cross-Selling Definition” Disponível em: http://www.investorwords.com/1224/cross_selling.html acessado em: 26-05-10

Multilayer perceptron Disponível em: http://en.wikipedia.org/wiki/Multilayer_perceptron acessado em: 26-05-10 The MathWorks Diponível em: http://www.mathworks.com/ acessado em 20-05-10 W. A. Kamakura, M Wedel, F de Rosa, JA Mazzon - International Journal of Research in Marketing, 2003 –

“Cross-selling through database marketing: a mixed data factor analyzer for data augmentation and

prediction”.

redes neurais artificiais - cin.ufpe.br

Documents

aplicaÇÃo de redes neurais artificiais com topologia

redes neurais artificiais - departamento de informática e...

2. redes neurais artificiais

redes neurais artificiais - utfpr

redes neurais artificiais com arquiteturas...

rna - redes neurais artificiais

introdução Às redes neurais artificiais

160277 redes neurais artificiais

desenvolvimento de redes neurais artificiais para

noÇÕes de redes neurais artificiais

introdução à redes neurais artificiais

introdução às redes neurais artificiais

aplicabilidade de redes neurais artificiais para …

redes neurais artificiais na modelagem digital: …

redes neurais artificiais - uma introdução prática

redes neurais artificiais aplicadas em aprendizagem …

redes neurais artificiais para classificação de patologias

2014: introdução às redes neurais artificiais

aula02 redes neurais artificiais. redes neurais artificiais...

redes neurais artificiais aplicadas ... - … · redes...