felipeseitihoriuchi - uel.br · sobrenome, n. a.. estudo sobre multimodal deep learning. 42...

44
FELIPE SEITI HORIUCHI ESTUDO SOBRE MULTIMODAL DEEP LEARNING LONDRINA–PR 2017

Upload: phamdung

Post on 01-Dec-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

FELIPE SEITI HORIUCHI

ESTUDO SOBRE MULTIMODAL DEEP LEARNING

LONDRINA–PR

2017

Page 2: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 3: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

FELIPE SEITI HORIUCHI

ESTUDO SOBRE MULTIMODAL DEEP LEARNING

Versão Preliminar de Trabalho de Conclusãode Curso apresentado ao curso de Bachare-lado em Ciência da Computação da Univer-sidade Estadual de Londrina para obtençãodo título de Bacharel em Ciência da Compu-tação.

Orientador: Fábio Sakuray

LONDRINA–PR

2017

Page 4: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

FELIPE SEITI HORIUCHIEstudo Sobre Multimodal Deep Learning/ FELIPE SEITI HORIUCHI. –

Londrina–PR, 2017-42 p. : il. (algumas color.) ; 30 cm.

Orientador: Fábio Sakuray

– Universidade Estadual de Londrina, 2017.

1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III.Faculdade de xxx. IV. Título

CDU 02:141:005.7

Page 5: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

FELIPE SEITI HORIUCHI

ESTUDO SOBRE MULTIMODAL DEEP LEARNING

Versão Preliminar de Trabalho de Conclusãode Curso apresentado ao curso de Bachare-lado em Ciência da Computação da Univer-sidade Estadual de Londrina para obtençãodo título de Bacharel em Ciência da Compu-tação.

BANCA EXAMINADORA

Fábio SakurayUniversidade Estadual de Londrina

Orientador

Prof. Dr. Segundo Membro da BancaUniversidade/Instituição do Segundo

Membro da Banca

Prof. Dr. Terceiro Membro da BancaUniversidade/Instituição do Terceiro

Membro da Banca

Prof. Ms. Quarto Membro da BancaUniversidade/Instituição do Quarto

Membro da Banca

Londrina–PR, 24 de novembro de 2017

Page 6: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 7: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

Este trabalho é dedicado às crianças adultas que,quando pequenas, sonharam em se tornar cientistas.

Page 8: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 9: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

AGRADECIMENTOS

Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson,Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Sal-vador, Renato Machnievscz1 e todos aqueles que contribuíram para que a produção detrabalhos acadêmicos conforme as normas ABNT com LATEX fosse possível.

Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquiteturada Informação2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br3 e aosnovos voluntários do grupo abnTEX2 4 que contribuíram e que ainda contribuirão para aevolução do abnTEX2.

1 Os nomes dos integrantes do primeiro projeto abnTEX foram extraídos de <http://codigolivre.org.br/projects/abntex/>

2 <http://www.cpai.unb.br/>3 <http://groups.google.com/group/latex-br>4 <http://groups.google.com/group/abntex2> e <http://abntex2.googlecode.com/>

Page 10: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 11: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

“Não vos amoldeis às estruturas deste mundo,mas transformai-vos pela renovação da mente,a fim de distinguir qual é a vontade de Deus:

o que é bom, o que Lhe é agradável, o que é perfeito.(Bíblia Sagrada, Romanos 12, 2)

Page 12: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 13: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p. Trabalhode Conclusão de Curso – Versão Preliminar (Bacharelado em Ciência da Computação) –Universidade Estadual de Londrina, Londrina–PR, 2017.

RESUMO

Devido aos avanços tecnológicos dos últimos anos, machine learning tem ganhado muitaimportância, tanto na área cientifica, como na área econômica, estando presente no diaa dia de muitos, em smartphones, recomendações de amigos nas redes sociais, reconheci-mento facial, buscas na internet e até classificação de gênero de músicas. Tendo em vistaisso, este trabalho tem como objetivo abordar uma das técnicas utilizadas em machinelearning, multimodal deep learning.

Palavras-chave: Latex. Template ABNT-DC-UEL. Editoração de texto.

Page 14: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 15: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

SOBRENOME, N. A.. Study of Multimodal Deep Learning. 42 p. Final Project –Draft Version (Bachelor of Science in Computer Science) – State University of Londrina,Londrina–PR, 2017.

ABSTRACT

Due to the technological advances in past years, machine learning has gained a lot ofimportance in the scientific area and in the economic area, being present in daily life ofmany, on smartphones, friend requests on social media, face recognition, web searches,even on music genre classification. That said, this work has the objective of approachingone of the techniques used in machine learning, multimodal deep learning.

Keywords: Latex. ABNT-DC-UEL. Text editoration.

Page 16: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 17: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

LISTA DE ILUSTRAÇÕES

Figura 1 – Representação de um neurônio artificial. (Fonte: http://ataspinar.com/2016/12/22/the-perceptron/) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Figura 2 – Representação de uma arquitetura MLP. 1 . . . . . . . . . . . . . . . . 26Figura 3 – Representação de underfit e overfit. (Fonte: http://www.bogotobogo.com/python/scikit-

learn/Artificial-Neural-Network-ANN-7-Overfitting-Regularization.php) 27Figura 4 – Representação de deep learning. (Fonte: https://hackernoon.com/log-

analytics-with-deep-learning-and-machine-learning-20a1891ff70e) . . . . 29Figura 5 – Representação de multimodal learning. (Fonte: 2) . . . . . . . . . . . . 30

Page 18: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 19: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

LISTA DE TABELAS

Page 20: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 21: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

LISTA DE ABREVIATURAS E SIGLAS

ABNT Associação Brasileira de Normas Técnicas

BNDES Banco Nacional de Desenvolvimento Econômico e Social

IBGE Instituto Nacional de Geografia e Estatística

IBICT Instituto Brasileiro de Informação em Ciência e Tecnologia

NBR Norma Brasileira

Page 22: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 23: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

SUMÁRIO

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2 FUNDAMENTAÇÃO TEÓRICA . . . . . . . . . . . . . . . . . 252.1 Rede Neural . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Treinamento de Uma Rede Neural . . . . . . . . . . . . . . . . . 262.2.1 Fitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.2.2 Modelos de Treinamento . . . . . . . . . . . . . . . . . . . . . . . 282.2.2.1 Aprendizado Supervisionado . . . . . . . . . . . . . . . . . . . . . . 282.2.2.2 Aprendizado Não-Supervisionado . . . . . . . . . . . . . . . . . . . 282.2.2.3 Aprendizado Reforçado . . . . . . . . . . . . . . . . . . . . . . . . . 282.3 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292.4 Multimodal Learning . . . . . . . . . . . . . . . . . . . . . . . . . 302.5 Deep Convolutional Neural Network . . . . . . . . . . . . . . . . 302.6 Deep Recurrent Neural Network . . . . . . . . . . . . . . . . . . 302.7 TensorFlow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 PROCEDIMENTOS METODOLÓGICOS/MÉTODOS E TÉC-NICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4 CONCLUSÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

APÊNDICES 39

ANEXOS 41

Page 24: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 25: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

23

1 INTRODUÇÃO

Machine learning ou, aprendizagem de máquina, está por trás de muitos aspectosdo cotidiano das pessoas, de simples buscas na internet e filtros de conteúdo nas mídiassociais à recomendações de produtos em sites de venda, e está cada vez mais presenteem produtos como câmeras e smartphones. Sistemas de aprendizagem são usados paraidentificar objetos em imagens, transcrever fala em texto, selecionar notícias, anúncios,ou posts que interessam o usuário e selecionar resultados relevantes de uma pesquisa[3].

As técnicas convencionais de machine learning eram muito limitadas quando se tra-tava de processamento de dados raw, uma vez que os mesmos eram dados muito abstratos,sem rotulagem definida. Então começaram a enfatizar mais os estudos de representationlearning, que é o estudo que verifica quais são as representações que mais facilitam aclassificação e extração de dados uteis[4], e , mais recentemente, de deep learning, que éum método de aprendizagem de máquina que utiliza deep neural networks que são redesneurais com muitas camadas de processamento que são capazes de “quebrar” o conhe-cimento em pequenas etapas e são capazes de classificar dados a partir das informaçõesobtidas pelas suas camadas.

Desde então, pesquisadores procuram formas de melhorar o desempenho dessas re-des neurais utilizando deep learning, aplicando funções de controle de eficiência, utilizandoGPU’s para aumentar a velocidade de treinamento das redes[5] e etc.

Multimodal Deep Learning é um dos métodos que os pesquisadores encontrarampara tentar melhorar o desempenho destas redes neurais utilizando diferentes modalidadesde dados para diminuir a porcentagem de erro na leitura e interpretação de um dado, casohaja algum tipo de ruído no mesmo, e também, aumentar a assertividade da rede, uma vezque se a partir de duas modalidades de dados o resultado for semelhante, a possibilidadedo resultado estar certo é maior.

Multimodal Deep Learning segue o princípio de que informações no mundo realsão transmitidas através de vários “canais de entrada”. Imagens são associadas a legen-das e rótulos, vídeos contem sinais visuais e auditivos, sensores de movimento utilizaminformações coletadas a partir do som, do tato, do movimento e da visão. [6] Assim comoo cérebro humano capta essas diferentes informações que se complementam entre si paramelhor definir as informações recebidas, a ideia de utilizar diferentes formatos de dadospara reconhecer e classificar uma entrada pode ser benéfico aos resultados.

A aplicação desta ideia pode ser observada em sistemas de reconhecimento de voz,onde se captura o som da voz e o vídeo contendo o movimento dos lábios da pessoa. [7]Outro exemplo de aplicação é a detecção de pedestres, que utiliza imagens em formato de

Page 26: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

24

vídeo e o mesmo cenário, porém, utilizando um detector de calor, que pode complementaras informações obtidas caso a captura da imagem esteja muito escura ou tenha muitosruídos. [8] Essa ideia também pode ser observada em sistemas que medem a distribuiçãodos raios solares em um ambiente, onde pode utilizado as várias frequências como diferen-tes entradas para se verificar com mais certeza os locais onde há maior e menor incidênciados raios. [9]

O restante do trabalho está organizado da seguinte maneira: o Capítulo 2 contéma uma apresentação de conceitos iniciais sobre redes neurais, deep learning e multimodallearning.

Page 27: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

25

2 FUNDAMENTAÇÃO TEÓRICA

2.1 Rede Neural

O conceito de redes neurais pode ser definido como um conjunto de algorítmosmatemáticos inpirados na funcionalidade biológica dos neurônios. Esta definição foi in-troduzida por McCulloch e Prits [10], que propôs um modelo matemático para simular asatividades de um neurônio. [11]

O neurônio artificial, também chamado na literatura de "Perceptron", proposto porMcCulloch funciona da seguinte forma: ao receber um sinal de entrada, podendo ter um oumais elementos, cada elemento é multiplicado por um peso, que geralmente é representadopela letra "w"na literatura, então o valor calculado é somado e então submetido a umafunção de ativação. A figura 1 representa estas ações onde "1, x1, x3 e x4"são entradasque são multiplicadas por um peso "w"e a sua soma é submetida a uma função de ativação"unit step function".

Figura 1 – Representação de um neurônio artificial. (Fonte:http://ataspinar.com/2016/12/22/the-perceptron/)

Os pesos de cada rede neural são definidos pelo autor da rede, sendo que cada umrepresenta o "nível de importância"de cada elemento da entrada e a funçao de ativação,também definida pelo autor, geralmente apresenta um "limiar"que deve ser atingido pela

Page 28: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

26

soma calculada para a ativação, ou não do perceptron. Isto pode ser descrito pela seguintefunção:

𝑓(𝑦) = 𝑠𝑢𝑚𝑁𝑖=0𝑊𝑖𝑗𝑋𝑖 + 𝐵𝑗

Onde y é a saída, Wij é o peso W da camada i do neurônio para a entrada j, e Xié a entrada X.

Estes neurônios podem ser agrupados para formar uma rede neural. As diferentesformas de se agrupar os perceptrons são responsáveis por definir a arquitetura da redeneural. [12] [13] A figura 2 apresenta um exemplo de multi-layer-perceptron que é umaarquitetura composta por vários perceptrons organizados em camadas.[14]

Figura 2 – Representação de uma arquitetura MLP. 1

2.2 Treinamento de Uma Rede Neural

Uma das caracteristicas mais importantes de uma rede neural é a capacidadede aprender utilizando exemplos e extrair informações de seu aprendizado, melhorandogradativamente o seu desempenho. As redes neurais geralmente utilizam um algoritmode aprendizagem que tem como objetivo, ajustar os pesos e os biases dos perceptrons.[15]Estes algoritmos são utilizados para facilitar a definição da taxa de aprendizagem de uma

Page 29: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

27

rede neural, uma vez que, caso a taxa escolhida seja muito baixa, a rede demorará muitopara ser treinada e ela tem mais chances de ficar "presa"em um máximo, ou mínimo local,o que a impediria de obter o seu desempenho máximo. Porém, caso a taxa escolhida sejamuito alta, a rede neural pode não conseguir convergir para um único ponto de melhordesempenho e ficará instável.

2.2.1 Fitting

Um dos problemas que as redes neurais possuem é a ausencia de um "ponto fixoideal"de treino, ou seja, cada rede tem um certo grau ideal para que ela seja treinada. Casoeste ponto não seja estabelecido corretamente pode levar a rede a apresentar problemascomo "overfitting"e "underfitting".

Overfitting é o problema que se da quando uma rede neural é muito específicapara um certo grupo de dados, isso pode prejudicá-la caso o problema a ser resolvido,ou classificado, por ela tenha um grande número de variáveis. Já o contrário, underfit-ting acontece quando a rede neural é muito geral, fazendo com que ela passe a aceitarmais dados do que o esperado. Ambos os problemas podem levar a uma rede neural semprecisão, o que a deixaria inutilizável em casos de problemas reais.

Figura 3 – Representação de underfit e overfit. (Fonte:http://www.bogotobogo.com/python/scikit-learn/Artificial-Neural-Network-ANN-7-Overfitting-Regularization.php)

Para solucionar estes problemas, foram estudadas algumas técnicas que podemser utilizadas para reduzir a ocorrência deles. Uma delas é a "Dropout", que consiste emselectionar alguns perceptrons da camada de processamento (hidden layer) e bloquear asua saída de dados para os perceptros de output fazendo assim com que eles não sejamavaliados nos algoritmos de aprendizagem, então, após um tempo, desbloqueiar a saídasdos perceptrons bloqueados e bloquear outros neurônios. Isso faz com que a rede neural setorne mais geral, não dependendo apenas de um conjunto de neurônios para tomar certasdecisões, mas sim da decisão de vários conjuntos.[16] [17]

Page 30: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

28

Outra solução é "Early Stopping", que consiste em separar o conjunto de testeem tres conjuntos, um para o treinamento, um para validação e outro com a funçãode representar casos reais de aplicação da rede. Outra parte importante deste método éconstantemente avaliar os resultados de cada fase do treinamento de uma rede e parar otreinamento antes que a rede neural se torne "overfit". Essa técnica não permite que a redeneural fique muito específica para o conjunto de teste, a ponto de começar a prejudicaros resultados dela para casos de aplicação real.[18] [19]

2.2.2 Modelos de Treinamento

Existem diferentes modelos de treinamento para uma dada rede neural, que corres-pondem ao modo que os dados de entrada são estruturados, fornecidos à rede e analisadospor ela.

2.2.2.1 Aprendizado Supervisionado

No aprendizado supervisionado é oferecido à rede um conjunto de dados que pos-suem, basicamente, dois parâmetros uma entrada e a saída esperada por aquela entradae a função do algoritmo é determinar uma função que dado tal entrada, teria o resultadoesperado. Portanto, é necessário ter um conhecimento prévio do comportamento que sedeseja, ou se espera da rede. Para cada entrada, deve-se indicar explicitamente à redeneural se a resposta calculada é boa ou ruim, então o erro entre as respostas, esperadas eobtidas, é calculado e de acordo com ele são feitos ajustes para aumentar o desempenhoem futuros testes.[15] [3]

2.2.2.2 Aprendizado Não-Supervisionado

No aprendizado não-supervisionado, o algoritmo analisa os dados de exemplosfornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira,formando agrupamentos ou clusters. Então, após determinar os clusters de dados, osmesmos precisam ser rotulados de acordo com o contexto do problema analisado.[20]

O aprendizado não-supervisionado é uma ferramenta muito poderosa para o trei-namento de redes neurais, pois com ele é possível utilizar grandes conjuntos de dadospara o processo, uma vez que os dados não precisam ser rotulados, porém, geralmente oaprendizado não-supervisionado é utilizado em conjunto com o aprendizado supervisio-nado que é utilizado em pequenos intervalos para ter uma melhor definição das funçõesde clusterização de acordo com o problema tratado.

2.2.2.3 Aprendizado Reforçado

O aprendizado reforçado se assemelha um pouco ao aprendizado supervisionadoem vista que os dados fornecidos para o trainamento precisam ter uma entrada e uma

Page 31: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

29

saída esperada, porém, a diferença é que ao invés de procurar uma função que leva aoresultado, o aprendizado reforçado é feito dividido em "passos"e em cada passo é verificado"qual o melhor passo a se dar", de acordo, apenas, com o estado atual e baseando-se naação tomada, a rede neural recebe um estimulo positivo ou negativo dependendo dasconsequências. Geralmente utilizado em robótica e jogos, onde é possível e tem maisfacilidade de dividir as ações em etapas.

2.3 Deep Learning

Deep Learning, ou Aprendizagem Profunda, é um conceito que começou a se desen-volver desde a década de 80, porém não era muito utilizada, pois possuia vários problemascomo a dificuldade de se programar e também o seu desempenho era pior do que as redesneurais mais simples que existiam devido a um problema chamado "Vanishing Gradient".Foi apenas na década de 90 que o Deep Learning começou a ser mais utilizado, pois per-mitia o uso do aprendizado não supervisionado e também teve vários avanços na área deaprendizado supervisionado. Enfim, atualmente, Deep Learning está sendo aplicado emvárias áreas de conhecimento, alcançando o primeiro resultado "super-humano"na área dereconhecimento de padrões visuais, ou seja, o resultado obtido pela rede neural obtevemelhores resultados do que uma pessoa real. [21]

Deep Learning é o termo que se usa para classificar redes neurais que possuemvárias camadas ocultas de processamento. Estas camadas permitem que o dado anali-sado seja dividido em várias partes, formando uma hierarquia de conhecimento, onde ascamadas iniciais são responsáveis pela detecção de características mais gerais do dado eentão as proximas camadas vão especificando cada vez mais as características analisadas.Por exemplo: Em uma rede neural que tem como objetivo detectar rostos de pessoas emimagens, as camadas iniciais são responsáveis por analisar os cantos do rosto, dando a suaforma, então as camadas finais verificariam a presença e a cor dos olhos, dentes, etc.[3]

Figura 4 – Representação de deep learning. (Fonte: https://hackernoon.com/log-analytics-with-deep-learning-and-machine-learning-20a1891ff70e)

Page 32: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

30

2.4 Multimodal Learning

Multimodal Learning é o conceito utilizado para denominar redes neurais que utili-zam de mais de uma "modality", ou modalidade, para analisar os dados. Uma modalidadepode ser definida como qualquer tipo de representação de um dado, podendo ser texto,audio, imagem, etc. [22] [6] [23]

A aprendizagem multimodal é feita com a analise separada dos dados, em diferentesredes neurais, então seus resultados são comparados juntos para obter um resultado, comorepresentado na figura 5.

Figura 5 – Representação de multimodal learning. (Fonte: 2)

2.5 Deep Convolutional Neural Network

2.6 Deep Recurrent Neural Network

2.7 TensorFlow

TensorFlow é uma interface para expressão e execução de algoritmos de aprendi-zado de máquina. Ela foi criada para ser a sucessora da DistBelief que foi a ferramentapara treinamento de redes neurais utilizada pelo Google até 2011. [24]

Page 33: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

31

Uma aplicação TensorFlow pode ser descrita como uma estrutura de gráfo direcio-nado composta por nós. O gráfo representa o fluxo dos dados que possuem extensões quepermitem que os nós mantenham e atualizem seu estado, o que é utilizado para criaçãode "loops". [24]

Page 34: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 35: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

33

3 PROCEDIMENTOS METODOLÓGICOS/MÉTODOS ETÉCNICAS

Para a realização do trabalho será programado uma rede neural aplicando os con-ceitos de Multimodal Deep Learning, combinando uma rede neural convolucional comapois de uma rede recorrente que fará analise de dado em formato de vídeo e uma redeneural recorrente que fará a leitura de dados em formato de audio, no contexto de reconhe-cimento de voz utilizando o framework TensorFlow e então os resultados serão comparadosaos resultados de outras redes neurais e estudados.

Page 36: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 37: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

35

4 CONCLUSÃO

Page 38: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 39: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

37

REFERÊNCIAS

[1] AZZOUZ, N.; BECHIKH, S.; SAID, L. B. Steady state ibea assisted by mlp neuralnetworks for expensive multi-objective optimization problems. In: ACM. Proceedingsof the 2014 Annual Conference on Genetic and Evolutionary Computation. [S.l.],2014. p. 581–588.

[2] EITEL, A. et al. Multimodal deep learning for robust rgb-d object recognition. In:IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Hamburg, Germany: [s.n.], 2015. Disponível em: <http://ais.informatik.uni-freiburg.de/publications/papers/eitel15iros.pdf>.

[3] LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. Nature, Nature Research,v. 521, n. 7553, p. 436–444, 2015.

[4] BENGIO, Y.; COURVILLE, A.; VINCENT, P. Representation learning: Areview and new perspectives. IEEE transactions on pattern analysis and machineintelligence, IEEE, v. 35, n. 8, p. 1798–1828, 2013.

[5] CHEN, X.-W.; LIN, X. Big data deep learning: challenges and perspectives. IEEEaccess, Ieee, v. 2, p. 514–525, 2014.

[6] SRIVASTAVA, N.; SALAKHUTDINOV, R. R. Multimodal learning with deepboltzmann machines. In: Advances in neural information processing systems. [S.l.:s.n.], 2012. p. 2222–2230.

[7] HOU, J.-C. et al. Audio-visual speech enhancement based on multimodal deepconvolutional neural network. arXiv preprint arXiv:1703.10893, 2017.

[8] XU, D. et al. Learning cross-modal deep representations for robust pedestriandetection. arXiv preprint arXiv:1704.02431, 2017.

[9] MA, L. et al. Multimodal deep learning for solar radio burst classification. PatternRecognition, Elsevier, v. 61, p. 573–582, 2017.

[10] MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent innervous activity. The bulletin of mathematical biophysics, Springer, v. 5, n. 4, p.115–133, 1943.

[11] CARDOSO, J. B. et al. Structural reliability analysis using monte carlo simulationand neural networks. Advances in Engineering Software, Elsevier, v. 39, n. 6, p.505–513, 2008.

[12] RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internalrepresentations by error propagation. [S.l.], 1985.

[13] ROSENBLATT, F. The perceptron: A probabilistic model for information storageand organization in the brain. Psychological review, American PsychologicalAssociation, v. 65, n. 6, p. 386, 1958.

Page 40: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

38

[14] GARDNER, M. W.; DORLING, S. Artificial neural networks (the multilayerperceptron)—a review of applications in the atmospheric sciences. Atmosphericenvironment, Elsevier, v. 32, n. 14, p. 2627–2636, 1998.

[15] FERNEDA, E. Redes neurais e sua aplicação em sistemas de recuperação deinformação. Ciência da Informação, SciELO Brasil, v. 35, n. 1, 2006.

[16] SRIVASTAVA, N. et al. Dropout: a simple way to prevent neural networks fromoverfitting. Journal of machine learning research, v. 15, n. 1, p. 1929–1958, 2014.

[17] KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification withdeep convolutional neural networks. In: Advances in neural information processingsystems. [S.l.: s.n.], 2012. p. 1097–1105.

[18] DOAN, C. D.; LIONG, S.-y. Generalization for multilayer neural network bayesianregularization or early stopping. In: Proceedings of Asia Pacific Association ofHydrology and Water Resources 2nd Conference. [S.l.: s.n.], 2004. p. 5–8.

[19] CARUANA, R.; LAWRENCE, S.; GILES, C. L. Overfitting in neural nets:Backpropagation, conjugate gradient, and early stopping. In: Advances in neuralinformation processing systems. [S.l.: s.n.], 2001. p. 402–408.

[20] MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado demáquina. Sistemas Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003.

[21] SCHMIDHUBER, J. Deep learning in neural networks: An overview. Neuralnetworks, Elsevier, v. 61, p. 85–117, 2015.

[22] NGIAM, J. et al. Multimodal deep learning. In: Proceedings of the 28th internationalconference on machine learning (ICML-11). [S.l.: s.n.], 2011. p. 689–696.

[23] GU, Y. et al. Speech intention classification with multimodal deep learning. In:SPRINGER. Canadian Conference on Artificial Intelligence. [S.l.], 2017. p. 260–271.

[24] ABADI, M. et al. Tensorflow: A system for large-scale machine learning. In: OSDI.[S.l.: s.n.], 2016. v. 16, p. 265–283.

Page 41: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

Apêndices

Page 42: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação
Page 43: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação

Anexos

Page 44: FELIPESEITIHORIUCHI - uel.br · SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p.Trabalho deConclusãodeCurso–VersãoPreliminar(BachareladoemCiênciadaComputação