análise automática de imagens de fmri -...

FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO

Análise Automática de Imagens defMRI

Nuno P. P. A. Sousa

PREPARAÇÃO DA DISSERTAÇÃO

Mestrado Integrado em Bioengenharia

Orientador: João Manuel R. S. Tavares (FEUP/DEMec)

27 de Janeiro de 2013

Análise Automática de Imagens de fMRI

Nuno P. P. A. Sousa

Mestrado Integrado em Bioengenharia

27 de Janeiro de 2013

Resumo

A partir das várias ferramentas existentes da imagiologia médica o estudo dos processos cog-nitivos sensoriais tem sido progressivamente mais capaz de correctamente mostrar a associação deprocessos com zonas específicas do cérebro

Recentemente, foi possível a partir da aquisição de imagens de Ressonância Magnética Fun-cional (fMRI) reconstruir parcialmente as imagens que estavam a ser visualizadas pelo pacientedurante a aquisição. Este esforço de a partir das imagens de fMRI reconstruir os estímulos visuaisque reconstruiram a resposta, assenta principalmente sobre a elaboração de modelos descodifi-cantes (decoding) da actividade cerebral. O processo de encontrar estes modelos para o casodescodificante é muito mais complexo do que fazer o mesmo para os modelos em sentido oposto,ou seja codificantes (encoding). Daí haver uma vantagem em realizar modelos codificantes á par-tida e posteriormente passar-los por métodos conhecidos a modelos descodificantes que permitemas actividades fantásticas de descodificação da imagem como vista, pelo Córtex visual do ser hu-mano.

Dado o impacto que prever a resposta de um campo receptor (Receptive Field - RF) para o es-timulo permite depois realizar o procedimento inverso, torna-se crítico fazer-lo o melhor possível.A qualidade dos resultados nesta etapa está intrinsecamente ligada aos resultados finais do mo-delo de decoding. Este modelo de decoding é usado em análise automática de fMRI para extrairinformação a partir da actividade apresentada.

Este estudo foca as técnicas mais avançadas para a modelação da resposta neuronal de umcampo receptor a estímulos conhecidos visuais, tanto sobre a forma de imagens estáticas, comovídeo.

Existe um concurso chamado Neural Prediction Challenge lançado pelos laboratorios Gal-lant da Universidade da California - Berkley, que avalia a eficácia destes métodos de previsão,possuindo amostras de treino e um conjunto de amostras de avaliação cujo o resultado não é co-nhecido pelos concorrentes (de maneira a garantir que o resultado é cego e não tendencioso a sobreadaptação áquelas amostras em particular).

A partir dos datasets providenciados pretende-se implementar a solução state of the art para oproblema bem como desenvolver construtivamente optimizações que melhorem estes resultados.É ainda objectivo explorar em mais detalhe uma solução com redes neuronais recursivas parao problema, visto serem uma modelação muito aproximada das vias reais pelo qual o sinal éprocessado no cérebro.

i

Abstract

From the existing medical imagiology tools, it has been progressivly more possible to correctlyshow the association between cognitive sensorial processes and the zones in the brain.

Recentlly, the aquisition of Functional Magnetic Ressonance (fMRI) imaging has enabled thepartial reconstruction of the actual images that were being exhibited by the subject during aqui-sition. This effor to transform fMRI signals into the original stimulus that trigerred that responserelyies heavilly the construction of decoding models of brain activity. The process of elaboratingsaid models is much more complicated for the decoding model than for the opposite direction -the encoding models. There is a clear advantage of first elaborating the codifying model and thenfrom it extrapolate the decoding model which can be acheived by known methods, resulting in theamazing decoding of pre visual cortex activity into images.

Given the impact of neural prediction for a Receptive Field - RF to a stymulus which will latterallow the inverse procedure, it becomes critical do it as well as we can. The quality of results inthis stage will latter determine the final decoding result’s quality. The decoding model can then beused in automated fMRI analisys to predict information from the observed brain activity.

This study focus the state of the art techniques currently used to predict neural response of aRF to known visual stimuli, on the form of static images and dynamic video.

There is a ”contest” called Neural Prediction Challenge by Gallant Labs from University ofCalifornia Berkley which sorts the efficacy of these predictive models by supplying data for de-velopment and test, and posessing a set of sample data whose neural response is not given to thesubmitants (in order to assure that the result is blind and unbiased of overfitting to those particularsamples).

From the given datasets a state of the art solution is going to be atempted, trying to improve onit constructivelly whenever ppossible, for better results. It is also objective of this work to explorein greater deteail a recurse artificial neural network solution (rANN) which is a model which isvery aproximate of the actual ways through which the visual signal is processed in the brain.

iii

Conteúdo

1 Introdução 11.1 Motivação, Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Sucessos, estado da arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Encoding e Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Neural Prediction Challenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2 Estado da Arte 92.1 Modelo STRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Modelo no Domínio da Imagem . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Modelo de Potência de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Estimar a STRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.4.1 Aquisição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.4.2 Correlação Inversa Normalizada . . . . . . . . . . . . . . . . . . . . . . 12

2.5 Gerar e avaliar as previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.6 Redes Neuronais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.7 Proposta de trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

Referências 19

v

CONTEÚDO

vi

Lista de Figuras

1.1 Imagem de corte sagital da zona V1 do cérebro [Pol]. . . . . . . . . . . . . . . . 1

1.2 Conjunto de testes feito para dois sujeitos. São exibidos os padrões da linha decima, e atravéz do modelo descodificante e mapeamento da fMRI reconstruiu-separa vários ensaios cada uma das linhas abaixo, cuja média resulta na imagemfinal, com caractrísticas muito semelhantes á original [MUY+08]. . . . . . . . . 3

1.3 Reconstrução do video como observado pelo sujeito atravéz de fMRI. Esta experi-ência ficou célebre pois atravéz da aquisição de dados de fMRI, centrada no sulcoocipital(onde fica o córtex visual) com alta amostragem temporal foi possível ob-servar o que a mente humana vê. O método para esta reconstrução baseia-se numabiblioteca extensa (centenas de horas de aquisição) para o sujeito, com as respos-tas guardadas, e na média dos frames dos clips que apresentão maior afinidadecom a medição [NVN+11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Modelos de encoding e decoding linearizados. [Topo] O cérebro pode ser intre-pretado como um sistema que mapeia não linearmente estimulos em actividade ce-rebral. A neurociência cognitiva tem como objectivo descubrir este mapeamentonão linear entre input e actividade cerebral; [Meio] Modelo de Encoding lineari-zante. A relação entre encoding e decoding pode ser descrita em termos de umasérie de espaços abstractos. No nosso caso particular as experiências com estímu-los visuais fazem com que os eixos da entrada sejam a iluminância correspondentea um pixel no espaço (na figura, imagens diferentes são representadas por cor di-ferente). A actividade cerebral medida em cada voxel encontra-se representadano espaço de actividade (Activity space).Os eixos do espaço de actividade repre-sentam correspondem á actividade de diferentes voceis e cada ponto do espaçorepresenta um padrão de actividade único atravéz de vários vóxeis (representadopor cores diferentes). Entre estes dois espaços encontra-se o espaço das caracte-rísticas (feature space). O mapeamento entre o espaço de entrada e o espaço dascaractrísticas é não linear, já o mapeamento entre o espaço de actividade e o decaractrísticas é linear. [Fundo] Aplicação de um classificador linear - O classifica-dor linear é um simples modelo de descodificação que pode também ser descritoem termos dos espaços de entrada, caractrística e actividade. Note-se no entantoque no modelo codificante em baixo a direcção do mapeamento corre em sentidocontrário [NKNG11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

vii

LISTA DE FIGURAS

1.5 Método para a combinação codificação/descodificação. A relação entre encodinge decoding sugere que a melhor maneira possível para analisar fMRI consiste emquatro passos: (1) Exibir uma quantidade grande e gravar a actividade cerebral dealguns voxeis, e gerar um conjunto de treino e outro de validação. (2) Usar o da-taset de treino para estimar um ou mais modelos de codificação. Nesta etapa sãodesenvolvidos modelos não lineares que tranformam a imagem num espaço de ca-ractrísticas não lineares. Amostras modelo (tracejado com quadrados) estimados apartir dos dados de treino especificam um classificador linear. (3) Usa-se tudo istopara gerar uma actividade prevista compara-se esta com os dados de actividade(isto para o dataset de validação) escolhe-se o melhor e mede-se performance. (4)O teorema de Bayes é usado para gerar o modelo preditivo [NKNG11]. . . . . . 6

2.1 STRFs Linear (esquerda) vs Linearizado (direita) para Neurónios V1. (A - Es-querda): Linear, STRF no domínio da imagem. A entrada como é observada érepresentada como uma sequência de imagens em tons de cinzento, s(x,y, t), oestímulo é convoluido com um filtro linear espaço-temporal como o descrito naequação 2.1 o filtro é também tridimensional possuindo uma resposta para cadapixel para cada atraso no tempo. O nível de cinzento representa a resposta comoindicado pela escala. A saída deste filtro é passada por um treshold θ (que naimagem representa também a rectificação). E obtém-se a cadência instantanea dedisparo r(t) em baixo. No modelo linearizado é aplicada uma transformada e com-putada a potência gerando o espaço intermédio Sp para o qual os filtros são agorafocos, e como tal mais fácil de estimar [DG05]. . . . . . . . . . . . . . . . . . . 10

2.2 Modelo de uma rede neuronal simples. Nodos de entrada, escondidos e de saidada esquerda para a direita [Cru07]. . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3 RMLP, note-se as etapas recursivas que conferem memória ao dispositivo [AMM]. 152.4 Resultados obtidos por Agrawal and Mishra, 2008 . . . . . . . . . . . . . . . . . 16

viii

Lista de Tabelas

1.1 Resultados do Neural Prediction Challenge . . . . . . . . . . . . . . . . . . . . 7

2.1 Condições de Aquisição - David & Gallant 2005 . . . . . . . . . . . . . . . . . 122.2 Calendarização das actividades necessárias à dissertação . . . . . . . . . . . . . 17

ix

LISTA DE TABELAS

x

Abreviaturas e Símbolos

MRI Magnetic Ressonance ImagingfMRI Functional Magnetic Ressonance ImagingRF Receptive FieldBOLD Blood Oxigenation Level DetectionANN Artificial Neural NetworksrANN Recursive Artificial Neural NetworksFFT Fourier Fast Transform; Se bem que o seu uso seja geralmente para referir a

transformada de Fourier, sem especificamente referir o uso do algoritmo FFTpara o seu cálculo

SPRF Spatio Temporal Receptive FieldrMLP Recursive Multi Layer Perceptron

xi

Capítulo 1

Introdução

A visão é um processo complicado, sabe-se que inicialmente o olho funciona como uma câ-

mara, com células que funcionam em modo foto-receptor e transmitem as suas actividades pelo

nervo óptico até uma zona do cérebro conhecida como o pré-cortex visual, também conhecido

como córtex visual primário ou cortex viso-motor [HW62].

Figura 1.1: Imagem de corte sagital da zona V1 do cérebro [Pol].

As imagens visualizadas são inicialmente captadas pela retina por células particularmente sen-

síveis (bastonetes e cones) e conduzidas pelo nervo óptico até esta zona V1 onde a informação do

que é que está a ser visto tem ainda todas as propriedades de uma imagem:

Existem associações sistemáticas entre zonas da visão e a actividade exibida por vo-

lumes (vóxeis) do cérebro e a iluminância que incidiu sobre as zonas da retina corres-

pondentes a este.

1

Introdução

Ou seja: existe um conjunto de vóxeis que contèm ainda a imagem relativamente pura, e

a partir do qual é possível reocnstruir o estímulo observado [NPK+09]. No entanto esta área

está ainda praguejada de efeitos não lineares, inicialmente as experiências neste campo usando

imagens muito rígidas como barras[HW59] [DVAT82] [JP87], senos, ruido branco, descubriam

que mesmo no cortex visual primário, a informação das imagens é ajustada dinamicamente para

os níveis de iluminação e contraste da imagem total. Existem comportamentos com resposta não

linear, como por exemplo a soma temporal dos estímulos [TDT81] bem como modulação não

clássica do campo receptivo [GW90]. Note-se que a grande maior parte dos estudos feitos até

agora sobre o funcionamento dos neurónios do córtex visuais foi elaborado usando mamíferos

como o gato ou o macaco, estima-se que o funcionamento dos neurónios seja aproximadamente

igual para seres humanos. Os mecanismos de processamento visual são aproximadamente iguais

entre o ser humano e os primatas mais próximos.

Os estímulos podem ser captadas por métodos não invasivos como seja a ressonância magné-

tica funcional (fMRI), que progressivamente têm sido capazes de exibir detalhes muito grandes

até ao ponto de observer campos receptivos individuais [FFJ+98]. Esta técnica funciona essen-

cialmente pelos comportamentos hemodinâmicos do cérebro que aumenta o volume de oxigénio

fornecido e provoca alterações visiveis na ressonância. Para maior detalhe há ainda métodos com

a injecção de contrastes como Cálcio [MNS09] que de futuro refinando esta tecnologia permitirão

aplicações ainda mais interessante.

1.1 Motivação, Aplicações

O estudo mais aprofundado dos mecanismos da visão abrem a porta a várias tecnologias ver-

dadeiramente avançadas como por exemplo:

• Reparação de visão atravéz de implantes e sensores

• Captação dos estímulos visuais em sonhos

• Detectores de Verdade e Mentira atravéz das respostas visuais evocadas nos sujeitos

• Sistemas de realidade aumentada com conhecimento eficaz do que é que está a ser visto

• Interfaces computador-cérebro com recurso á componente visual da imaginação como forma

de comunicação

• Investigação médica, psiquiátrica, psicológica

Existe um interesse académico muito considerável na melhoria dos sistemas de encoding neu-

ronal. Afinal o conhecimento contemporâneo do cérebro ao nível dos processos cognitivos e de

como eles se desenvolvem fisicamente para o caso da visão pode dar ferramentas que permitam

aprufundar todas as outras áreas de reverse-engineering do cérebro humano.

2

Introdução

1.2 Sucessos, estado da arte

O decoding é o objectivo final para tecnologias que para este campo tentam observar o que

o cérebro observa como o trabalho dos laboratórios Gallant em Berkley, Universidade da Cali-

fórnia. Investigadores da ATR Computational Neurostudies Institute em Tokyo conseguiram em

2008 [MUY+08] fazer mapeamento tal que foi possível reconstruir imagens estáticas da fóvea

projectadas no cortex e observadas por fMRI, com detalhe suficiente para ser possível ler a partir

das imagens reconstruidas a palavra “neuron”.

Figura 1.2: Conjunto de testes feito para dois sujeitos. São exibidos os padrões da linha de cima, eatravéz do modelo descodificante e mapeamento da fMRI reconstruiu-se para vários ensaios cadauma das linhas abaixo, cuja média resulta na imagem final, com caractrísticas muito semelhantesá original [MUY+08].

Este sucesso foi mais recentemente ultrapassado pelos investigadores do Gallant Lab, que

criaram um modelo de mapeamento e decoding bom suficiente para, com recurso a cerca de um

milhão de segundos de video e respostas medidas serem capazes de obter uma silhueta dinamica

daquilo que o sujeito estava a ver [NVN+11].

Estes mapeamentos feitos até agora residem mais no treino de classificadores com muitos

dados do que no uso de modelos de decoding perfeitos, no entanto sabe-se que as caractrísticas

extraidas para estes classificadores a partir da fMRi podem ser adaptadas pelos modelos de desco-

dificação elaborados, possuindo um bom modelo de descodificação pode-se classificar em função

do output esperado pelo descodificador em vez da imagem directa, com resultados melhores, pois

libertam o classificador de modelar também a descodificação integralmente.

3

Introdução

Figura 1.3: Reconstrução do video como observado pelo sujeito atravéz de fMRI. Esta experiênciaficou célebre pois atravéz da aquisição de dados de fMRI, centrada no sulco ocipital(onde fica ocórtex visual) com alta amostragem temporal foi possível observar o que a mente humana vê. Ométodo para esta reconstrução baseia-se numa biblioteca extensa (centenas de horas de aquisição)para o sujeito, com as respostas guardadas, e na média dos frames dos clips que apresentão maiorafinidade com a medição [NVN+11].

1.3 Encoding e Decoding

Sabe-se que é possível a partir dum modelo de codificação (encoding) atravéz de métodos

bayesianos simples chegar a um descodificador. Levanta-se a questão portanto da escolha entre o

estudo do encoding e do decoding. Consideremos os dois processos presentes na figura 1.4.

O mapeamento entre o espaço de entrada da fig. 1.4 e o espaço das caractrísticas presume-se

não linear, pois é conhecido o funcionamento dos neurónios e sabe-se que estas computações vão

ser também não lineares.

Portanto, na escolha entre estudar a codificação ou descodificação temos os seguintes fac-

tores, a resposta de um unico campo receptor é possível medir com bastante precisão usando

agulhas micro eléctrodos na zona, ou agulhas directamente num neurónio, já quando medimos

vários usando fMRI ou outra técnica como a MEG a velocidade de amostragem temporal é de

cerca de 1s [MNS09, Bux02] nas melhores condições possíveis. Pensando no assunto chega-se

á conclusão que é mais fácil partir do input experimentar combinações para produzir caractrísti-

cas que depois mapeiam bem para o espaço de actividade. Fazer o inverso, ou seja a partir da

actividade do neurónio para a imagem, implicaria que ficaria no meio, uma classificação linear

4

Introdução

Figura 1.4: Modelos de encoding e decoding linearizados. [Topo] O cérebro pode ser intrepretadocomo um sistema que mapeia não linearmente estimulos em actividade cerebral. A neurociênciacognitiva tem como objectivo descubrir este mapeamento não linear entre input e actividade ce-rebral; [Meio] Modelo de Encoding linearizante. A relação entre encoding e decoding pode serdescrita em termos de uma série de espaços abstractos. No nosso caso particular as experiênciascom estímulos visuais fazem com que os eixos da entrada sejam a iluminância correspondente aum pixel no espaço (na figura, imagens diferentes são representadas por cor diferente). A activi-dade cerebral medida em cada voxel encontra-se representada no espaço de actividade (Activityspace).Os eixos do espaço de actividade representam correspondem á actividade de diferentes vo-ceis e cada ponto do espaço representa um padrão de actividade único atravéz de vários vóxeis(representado por cores diferentes). Entre estes dois espaços encontra-se o espaço das caracterís-ticas (feature space). O mapeamento entre o espaço de entrada e o espaço das caractrísticas é nãolinear, já o mapeamento entre o espaço de actividade e o de caractrísticas é linear. [Fundo] Aplica-ção de um classificador linear - O classificador linear é um simples modelo de descodificação quepode também ser descrito em termos dos espaços de entrada, caractrística e actividade. Note-se noentanto que no modelo codificante em baixo a direcção do mapeamento corre em sentido contrário[NKNG11].

antes do método não linear a ser testado, e visto que temos a imagem toda para realizar a con-

versão entrada-caractrística, e possuimos apenas uma associação N para 1 das caractrísticas para

a actividade de um neurónio teriamos uma abundancia de combinações que faria da classificação

5

Introdução

uma etapa crítica pois podiamos variar o N e só depois ver um mapeamento qualquer não linear

para gerar a imagem. A convergência da classificação ficaria portanto muito mais díficil de obter

e teriamos que gastar muitos mais recursos computacionais [NKNG11].

Para exemplificar o excesso em cálculo considere-se que a etapa linear gera A possibilidades

e para a não linear geram-se B possibilidades e o peso da não linearidade é dois (optimista - por

exemplo uma ANN com duas camadas). É facil verificar que A×B2 < (A×B)2 ou seja, existe

uma vantagem em realizar a etapa não linear primeiro e ir pelo encoding. Para mais discussão

sobre o asssunto ver Naselaris et al. 2011.

Possouindo um modelo predictivo é apenas uma questão de aplicar o teorema de Bayes para

gerar o modelo descodificante.

Figura 1.5: Método para a combinação codificação/descodificação. A relação entre encoding edecoding sugere que a melhor maneira possível para analisar fMRI consiste em quatro passos: (1)Exibir uma quantidade grande e gravar a actividade cerebral de alguns voxeis, e gerar um conjuntode treino e outro de validação. (2) Usar o dataset de treino para estimar um ou mais modelos decodificação. Nesta etapa são desenvolvidos modelos não lineares que tranformam a imagem numespaço de caractrísticas não lineares. Amostras modelo (tracejado com quadrados) estimados apartir dos dados de treino especificam um classificador linear. (3) Usa-se tudo isto para gerar umaactividade prevista compara-se esta com os dados de actividade (isto para o dataset de validação)escolhe-se o melhor e mede-se performance. (4) O teorema de Bayes é usado para gerar o modelopreditivo [NKNG11].

6

Introdução

Tabela 1.1: Resultados do Neural Prediction Challenge

Utilizador Data Método Tempo de Execução Pontuação (CC)Imagemmoliver 2013-01-02 3d Wavelets HiRes 11:35 0.533moliver 2012-12-28 3d Wavelets 12:16 0.519pmineault 2011-03-16 LeCunning 22:20 0.491pmineault 2010-05-06 GLMboosttreelog 15:45 0.431david 2006-12-01 pfft 12:38 0.430Videomoliver 2012-12-2 3d Wavelets 12:29 0.501david 2005-12-12 pfft 12:12 0.457david 2005-12-13 psfft 16:39 0.405istevenson 2012-07-19 basisinseppfft 17:03 0.384istevenson 2012-07-25 slng-pseudoBoost 10:57 0.374

1.4 Neural Prediction Challenge

Disponibilizado pela Gallant Labs da UC Berkeley este concurso é puramente académico, não

possui um prémio ou data de fim. O objectivo do mesmo é facilitar as transações entre investi-

gadores da neurociência cognitiva, permitindo acesso abundante a dados muito priviligiados que

seriam dificieis de obter de outra forma, facilitando portanto o contributo e experiência de métodos

novos para o encoding da resposta neuronal. Os organizadores têm também um interesse próprio

na melhoria destes métodos pois com melhoram também o seu trabalho de descodificação.

Está activo desde 2005, consiste numa base de dados de cerca de 4GiB de estímulos e res-

postas de um neurónio. Para grande parte destes estímulos estão disponíveis as respostas para os

restantes não. Este subgrupo para o qual só é fornecido o video ou as imagens deve ser anali-

zado pelos concorrentes e somente a resposta prevista do neurónio é submetido á plataforma do

Neural Prediction Challenge. Esta resposta é comparada internamente com as respostas reais me-

didas e atravéz do coeficiente de correlação cruzada (visto ser um só RF o sinal é unidimensional)

obtém-se o valor de performance de cada tentativa.

Naturalmente seria possível pelo método do gradiente descendente ir aproximando as soluções

submetidas das reais, por isso cada concorrente só pode submeter muito poucas vezes, de maneira

a garantir o não uso desses métodos.

Até muito recentemente a melhor solução submetida foi por um dos do próprio laboratório

(david), recentemente (em 2013) apareceu um resultado melhor, mas que ainda não é objectivo

desta monografia por ter aparecido durante a elaboração da mesma.

Há três tipos de dados fornecidos, resposta a sons do cortex auditivo, resposta de neurónios V1

a imagens estáticas (a serem alteradas com o tempo numa cadência lenta) e resposta de neurónios

V1 a vídeo “natural” (ou seja, não senos e barras mas cenas de filmes, tv entre outros corres-

pondentes a situações reais observáveis do mundo). Escolheu-se incidir o foco na vertente visual

(ambas, pois partilham o mesmo sistema, aliás como vemos os algoritmos são mais ou menos

adaptáveis na tabela 1.1). A escolha da vertente visual vem do facto de que a zona observável é

7

Introdução

maior na fMRI e como tal é onde a maior parte dos esforços têm sido conduzidos, observar o cór-

tex auditivo é mais complicado pois os sinais são menores em dimensão e portanto ocupam menos

espaço na sua forma mais pura, são rapidamente enviados para a zona da broca para processa-

mento de fala, e processos de muito mais alto nível ocorrem na identificação dos sons[HD97], não

é portanto tão convidativo de estudar como o córtex v1.

Possuem-se cerca de 4GiB de dados correspondentes a 3 ensaios com vídeo e 14 com imagens

estáticas, incluindo os estímulos (imagens / vídeo). o vídeo foi downsampled consideravelmente

apresentando 12×12 pixeis representando a iluminância para a zona, por motivos de espaço.

O resultado de maior interesse é o de vídeo pois faz com que a observação do neurónio tenha

em conta aspectos complexos espectro-temporais, além dos espaço-espectrais, lineares, etc.

8

Capítulo 2

Estado da Arte

2.1 Modelo STRF

O Campo Receptor Espacio-temporal (STRF) é uma função que mapeia estímulos visuais a

uma resposta neuronal. O estímulo e a resposta podem ser representados como dois sinais varian-

tes no tempo. Seja: s(Xi, t) o estímulo espaciotemporal, e r(t) a cadência de disparo instantânea

de um neurónio no tempo t. Coonsidere-se os pontos do espaço discreto Xi ∈ X1,X2,X3, · · · ,XN e

do tempo t=1. . . T. Os neurónios sensoriais possuem normalmente uma cadência de disparo nor-

malmente descrita pelo modelo linear rectificado [TDS+01]:

r(t) = |N

∑i=1

U

∑u=0

h(X j,u)s(X j, t−u)−θ + ε|+ (2.1)

Como é vísivel na equação 2.1, o valor do filtro linear h nos vários pontos do espaço Xi, e o

atraso no tempo u descreve como um estímulo presente em t−u influencia a velocidade de disparo

no tempo t.

Os atrazos são sempre menores do que U e maiores do que zero portanto, é feita a assunção

que o sistema é causal, não antecipativo, e com uma memória com o tamanho máximo de U .

Valores positivos de h indicam uma resposta excitatória com progressivamente maiores valores

de s, já valores negativos implicam que os canais do mecanismo são inibitivos e diminuem a

resposta.

A notação |x|+(= max(0,x)) representa a rectificação de meia onda, pois é este o compor-

tamento típico observado nos neurónios corticais. Há também um threshold especificado pelo

escalar θ [AG+91]. Há ainda uma parte do sinal observado que não é explicado e que pode cor-

responder a ruidos ou a uma parte não linear da resposta do sistema que não está modelada neste

modelo que é representada por ε(t), ou seja o sinal residual.

9

Estado da Arte

2.2 Modelo no Domínio da Imagem

É aceite que as células simples da área V1 repondem a estimulos que possuem a orientação,

frequência espacial e fase espacial apropriadas [DVAT82]. Estas células podem ser modeladas

como filtros espaciotemporais lineares, aplicadas ao estímulo [JP87, DOF95]. De acordo com esta

intrepretação do papel das células concebe-se o Modelo no Domínio da Imagem, onde as entradas

dos STRFs são a iluminância em cada posição retinotópica, ou seja os vários XI = (x,y).

Na figura 2.1 á esquerda é possível ver um esquema do Modelo no Domínio da Imagem com

um STRF simulado na caixa central. Cada imagem do STRF indica uma afinação espacial a

momentos sucessivos de atraso. A claro encontram-se zonas da imagem com reposta excitatória

para o neurónio, e a negro resposta inibitória.

O modelo no Domínio da imagem é portanto uma aplicação do modelo descrito pela equação

2.1 aplicado ao caso do sinal imagem, sendo que portanto os filtros têm as dimensões apropriadas.

Figura 2.1: STRFs Linear (esquerda) vs Linearizado (direita) para Neurónios V1. (A - Esquerda):Linear, STRF no domínio da imagem. A entrada como é observada é representada como umasequência de imagens em tons de cinzento, s(x,y, t), o estímulo é convoluido com um filtro linearespaço-temporal como o descrito na equação 2.1 o filtro é também tridimensional possuindo umaresposta para cada pixel para cada atraso no tempo. O nível de cinzento representa a resposta comoindicado pela escala. A saída deste filtro é passada por um treshold θ (que na imagem representatambém a rectificação). E obtém-se a cadência instantanea de disparo r(t) em baixo. No modelolinearizado é aplicada uma transformada e computada a potência gerando o espaço intermédio Sp

para o qual os filtros são agora focos, e como tal mais fácil de estimar [DG05].

10

Estado da Arte

2.3 Modelo de Potência de Fourier

As células mais complexas da zona V1 têm propriedades semelhantes ás simples no que toca

á sua afinação (resposta ás frequências) excepto que são insensíveis á fase espacial [DVAT82].

A luminância num ponto do espaço pode ser excitatória ou inibitória para um neurónio de

fase invariante, dependendo da luminância em locais próximos. O modelo no domínio da ima-

gem exige excitação ou inibição consistentes e constantes em cada posição e portanto não con-

segue modelar adequadamento o comportamento de STRFs de fase invariante como estas células

complexas.[DA01]

Vários modelos até agora foram propostos para explicar a resposta das células complexas. O

mais comum desdes será o modelo da energia que assume que a resposta duma célula complexa

é proporcional á Energia espacial de Fourier que passe na sua orientação e gama de frequências

passa-banda [AB85].

O modelo de Potência de Fourier é consistente com os modelos anteriores, consiste numa

transformação não linear que permite uma estimação eficiente dos STRFs neuronais. Neste mo-

delo uma transformada espacial de potência de Fourier é introduzida na entrada. Ou seja, a entrada

para o STRF é definida como a potência de Fourier variante no tempo do estímulo : Sp(ωx,ωy, t).

Sp(ωx,ωy, t) = |Sp(ωx,ωy, t)|2 (2.2)

Sendo que cada canal de entrada do STRF corresponde a uma frequencia espacial com duas

dimensões: Xi = (ωx,ωy). Esta transformada de Fourier remove a fase mas preserva a informação

sobre a orientação do estímulo e frequência espacial. Assim, para um neurónio que obedeça ao

modelo de energia, a PFFT indicará a afinação excitante para uma pequena gama de canais de

entrada. No entanto este modelo é ainda mais generalista que o modelo da energia porque per-

mite múltiplos canais de frequência excitarem ou inibirem um neurónio e não restringe a afinação

espectral ser a mesma para cada tempo de atraso.

As etapas posteriores são idênticas ao modelo no domínio da imagem referenciado na secção

2.2. Na figura 2.1 é possível ver esta metodologia de previsão, e os resultados mais concordantes

com a observação que no final resultam. Isto vem do facto do modelo PFFT não preservar o afina-

mente de fase, porque de resto o STRF tem as mesmas caractrísticas de orientação e frequência.

2.4 Estimar a STRF

O procedimento para fazer esta estimativa, é um de ajuste de classificação. Para tal começa-

mos por dividir os dados num conjunto de treino e outro de validação. Sugere-se como boa prática

90% para o conjunto de treino ou estimação, e 10% para o conjunto de validação. Havendo poucas

amostras pode-se praticar oversampling (ou seja repetir alguns segmentos), de maneira a conseguir

esta razão entre os dois conjuntos.

11

Estado da Arte

Tabela 2.1: Condições de Aquisição - David & Gallant 2005

Número de Neurónios 72 bem isolados, area parafovealVelocidade de Amostragem 8KhzSujeitos da experiência 2 macacos adultos (Macaca mulatta)Equipamento de Aquisição Eléctrodos de Tungsténio

Janela de aquisição feita á medidaFixação Animais treinados por recompensa a fixar ponto

Sensor de indução na esclera garantiu 0.35o

2.4.1 Aquisição

Técnicamente a aquisição destes dados pode ser feita a partir de primatas, com eléctrodos

introduzidos no cérebro. É sabido que os sistemas visuais a este nível entre os primatas mais

próximos e os humanos são quase totalmente iguais. Os segmentos devem ser de 5-10 s de com-

primento, e devem conter repetições para estimativa de erros e validade dos sinais. A base de

dados que se está disponível por exemplo relata as condições experimentais indicadas na Tabela

2.1.

Note-se que a fixação é importante, o sujeito deve fixar um ponto fixo sem mover o olho

os movimentos involuntários (possível durante curtos períodos de tempo). Para tal os macacos

foram treinados a fixar um ponto durante alguns segundos e era-lhes dado um sumo que eles

gostavam. Isto foi usado nas experiências também. Foi introduzido um sensor no olho para medir

movimentos. Se proventura o sujeito afastasse o olhar em mais do que 0.35o o ensaio era anulado.

Por isso há a garantia que aproximadamente a mesma zona retinotopical corresponde á imagem

exibida.

2.4.2 Correlação Inversa Normalizada

Neste método usa-se a correlação inversa normalizada para estimar os STRF linear e linea-

rizados a partir dos datasets de treino. Para escrevermos o STRF da equação 2.1 na sua forma

linear algebrica, admitindo que tempos T amostras e N canais, para gerar a matriz de esímulo S,

definimos uma matriz Su (N×T ):

Su =

s(1,1−u) s(2,1−u) · · · s(N,1−u)

s(1,2−u) s(2,2−u) · · · s(N,2−u)...

.... . .

...

s(1,T −u) s(2,T −u) · · · s(N,T −u)

(2.3)

Vê-se que cada fila de Su contém os N coeficientes que descrevem o estímulo a um lag u antes

de cada ponto no tempo. A matriz completa pode ser então obtida pela seguinte concatenação:

S = [S0S1S2 · · ·SU ] (2.4)

12

Estado da Arte

E como tal cada fila de S contém toda a informação do estímulo que contribui para a resposta a

cada ponto do tempo. Sendo portanto que S é uma matriz de dimensão N×Y,Y = XU .

Se definirmos agora o filtro h (que é o nosso STRF) como um vector de dimensão Y ×1 onde

cada valor deste vector define o ganho para uma posição espacial (canal de entrada) e um atraso

(um u) , podemos finalmente re-escrever a equação 2.1 na forma:

r = |Sh−θ + ε|+ (2.5)

E ficamos com um vector r e ε com dimensões T ×1.

A partir da equação 2.5 podemos chegar á seguinte fórmula:

h =1tC−1

ss ST r (2.6)

Onde C−1ss é a matrix inversa de autocorrelação do estímulo definida por:

Css = ST S/T ( T denota a operação de transposição) (2.7)

2.5 Gerar e avaliar as previsões

Se gerarmos as respostas neuronais de acordo com o modelo da figura 2.1 podemos, depois de

passos de downsampling e adaptação para compatibilidade com o sinal real observado, validar o

modelo. Para tal , cosiderando a resposta prevista rprev e a resposta observada robs , subtraimos as

médias rprev e robs e computamos o coeficiente de correlação ρ entre os dois:

ρ =

√rprevrobsr2

prevr2obs

(2.8)

A teoria diz que o coeficiente de correlação ao quadrado, ρ2 indica a variancia da resposta

observada explicada pela resposta prevista. Note-se no entanto que os sinais de ruido intruduzem

erros na estimativa da STRF e no dataset de validação.

Seja portanto Sval o estímulo de validação, podemos ter:

robs = Svalh+ εnlin = rlin + εlin (2.9)

O resíduo εnl resulta exclusivamente das propriedades não lineares. Se não houvesse ruido a

STRF poderia ser estimada na perfeição e a resposta prevista seria idêntica á componente linear

da resposta observada. A equação 2.8 simplificaria para:

ρ2ideal =

r2lin

r2lin + ε2

nl(2.10)

13

Estado da Arte

No entanto como visto o resido depende também do ruido:

ε = εnl + εruido (2.11)

E como tal a expressão 2.10 combinada com a 2.11 fica:

ρ2 =

r2lin

r2lin + ε2

nl + ε2ruido

(2.12)

Outra expressão de interesse derivada desta será a variância explicada pela previsão se não

existisse ruido:1

ρ2 =1

ρ2ideal

+AM

(2.13)

Onde M é o número de repetições e A uma constante associada á variabilidade de ensaio para

ensaio.

Para obter um parâmetro aceitavelmente confiável de ρideal convém usar alguma validação

cruzada, e experimentar com várias subamostragens subconjuntas dos dados de validação.

2.6 Redes Neuronais Artificiais

As redes neuronais artificiais são classificadores baseados na ideia de nodos com função de

transferência simples, mas que na sua combinação conseguem modelar fenómenos muito comple-

xos. O caso da rede neuronal simples, como a que é ilustrada na figura 2.2, é inadequado para

modelar os processos envolvidos, pois não possui memória e é portanto insensível ás amostras

temporais anteriores daquela que está a tratar. [DA01]

No entanto adicionando ligações de camadas posteriores a anteriores, ou seja usando recursi-

vidade gera-se outro tipo de redes neuronais chamadas Redes Neuronais Recursivas (RANN ou

RNN).

Estas contém memória, e conseguem portanto modelar comportamentos dinâmicos como a

resposta a frequência, fase, etc. Um caso destes é o Perceptrão, multi camada recursivo (RMLP).

Matemáticamente mostra-se que os outputs são dados por:

X1(n+1) = γ1(ω1

[x1(n)

u(n)

]);X2(n+1) = γ2(ω2

[x2(n)

u(n)

]);XO(n+1) = γO(ωO

[xO(n)

u(n)

]) (2.14)

Em que XO(n+1) é o output da camada de output e os outros dois são os outputs da camada

um e dois. ω é o peso e γ é a função de activação.

Outra maneira de adicionar as capacidades á rede para tratar este problema é o aumento mas-

sivo do seu tamanho, para incluir em paralelo na entrada nodos para cada canal, para cada instante

no tempo. Obviamente a rede ficará muito maior, mas considerando as frequências críticas e o

número de caractrísticas estamos a falar de cerca de dez mil nodos para uma amostragem que

permite frequências de 10Hz a 8KHz, ou seja, incluimos nodos para tratar um décimo de segundo.

14

Estado da Arte

Figura 2.2: Modelo de uma rede neuronal simples. Nodos de entrada, escondidos e de saida daesquerda para a direita [Cru07].

Figura 2.3: RMLP, note-se as etapas recursivas que conferem memória ao dispositivo [AMM].

O trabalho que propôs inicialmente o RMLP [AMM] para resolver este problema está na opi-

nião do autor relativamente mal optimizado, sendo possível ver que a sua falta de resultados advem

mais da falta de tamanho da rede (e por consequência baixa janela de resolução temporal) do que

por falha do método em si. Note-se na imagem 2.4 que a rede devolve resultados espacialmente

muito “brutos”, com pouco detalhe temporal. Os autores confirmam que há amplo espaço para

optimização.

No entanto é preciso ter as considerações que as rANN podem facilmente ficar caóticas, no

caso do MRLP a estabilidade deve ser aceitavel, mas os fenómenos de destabilização da rede com

o crescimento de input ou das camadas escondidas são conhecidos [Cru07].

15

Estado da Arte

Figura 2.4: Resultados obtidos por Agrawal and Mishra, 2008

2.7 Proposta de trabalho

Ambas as metodologias vão ser testadas. A PFFT por ser a incumbente melhor, e as Redes

Neuronais Recursivas por modelarem bem (no sentido em que os seus elementos são fieis aos

processos reais que se passam no cérebro) e estarem ainda muito pouco trabalhadas no que toca

a optimizações. Haverá possivelmente espaço para a conjunção das duas abordagens, sendo que

redes neuronais em função da imagem passada já pela transformada pode ter algum mérito, pois

a componente linear do input é bem tratada pela abordagem PFFT que já vai ao encontro do que

se sabe do funcionamento dos neurónios corticais V1, e as componentes não lineares podem ser

modeladas pela ANN.

As redes neuronais simples e massivas sendo grandes o suficiente podem modelar espaço e

tempo sem necessidade á recursividade, esta hipótse será confrontada com o uso de rANN.

Dentro das rANN, propoem-se decidir se o RMLP é a topologia adequada para esta aplicação,

tal não é necessariamente verdade. O treino de RMLP já está bem estudado devido á sua entidade

estrutural ser simples e bem conhecida ( o perceptrão), mas também se coloca a hipótse duma to-

pologia diferente, com recursividade entre camadas e não só entre perceptrões, no entanto note-se

que isto aumenta gigantescamente a complexidade do problema em termos de custos computa-

cionais, de facto no caso ’massivo’ de se considerar uma topologia com todas as recursividades

possíveis todas as combinações entre nodos têm uma ligação e o crescimento da complexidade é

factorial tornando somente redes muito pequenas exequiveis.

A ideia, como é muitas vezes metodologia com estas redes, é experimentar e avaliar os resul-

tados.

“Eu não gosto nada de redes neuronais, um indivíduo nunca sabe o que é que elas

andam a fazer, só se vê se funcionou ou não e muda-se uma coisa ou outra” - Professor

Aurélio Campilho, FEUP, 2012

16

Estado da Arte

Tabela 2.2: Calendarização das actividades necessárias à dissertação

Actividade Data Inicial Data finalInvestigação e Recolha de Material N.A Jan.Implementar uma solução PFFT -STRF

Fev. Mar.

Desenvolver e confirmar as funda-ções matemáticas referentes ás Re-des Neuronais

Fev. Fev.

Analisar e Optimizar a soluçãoPFFT

Mar. Abr.

Implementar e testar a soluçãoRMM (Massiva ou não)

Mar. Abr.

Verificação de resultados, Compa-rações e Conclusões

Abr. Mai.

Escrita da Dissertação, PequenasOptimizações onde for possível

Jun. Jun.

Submeter resultados á Neural Pre-diction Challenge, se possível pu-blicar um artigo

Jun.

O plano de trabalhos proposto está presente na tabela 2.2.

O Software a ser usado será o Matlab, com a STRFpak toolbox da Gallant Labs, e o RMLP

toolbox + prtools para cada uma das abordagens. Existe a possibilidade de vir a recorrer à Grid-

FEUP para realizar a computação pesada com recursos computacionais muito superiores aos do

computador comum.

Em ultima análise os métodos a serem testados parecem oferecer a possibilidade de testar com-

binações novas para este problema. Será tentada inovação nas redes neuronais, e optimização no

pfft, se bem que com o sentido crítico que as tabelas de resultados do Neural Prediction Challenge

possuem vários autores que tentam várias modificações ao algoritmo todas com resultados piores

do que o inicial.

17

Estado da Arte

18

Referências

[AB85] E.H. Adelson e J.R. Bergen. Spatiotemporal energy models for the perception ofmotion. J. Opt. Soc. Am. A, 2(2):284–299, 1985.

[AG+91] D.G. Albrecht, W.S. Geisler et al. Motion selectivity and the contrast-response func-tion of simple cells in the visual cortex. Visual neuroscience, 7(6):531–546, 1991.

[AMM] P. Agrawal, G. Mishra e A. Mukerjee. Neural prediction challenge.

[Bux02] R.B. Buxton. Introduction to functional magnetic resonance imaging: principles andtechniques. Cambridge University Press, 2002.

[Cru07] H. Cruse. Neural networks as cybernetic systems. Neural Networks, 2:2006, 2007.

[DA01] P. Dayan e L.F. Abbott. Theoretical neuroscience, volume 31. MIT press Cambridge,MA, 2001.

[DG05] S.V. David e J.L. Gallant. Predicting neuronal responses during natural vision.Network: Computation in Neural Systems, 16(2-3):239–260, 2005.

[DOF95] G.C. DeAngelis, I. Ohzawa e R.D. Freeman. Receptive-field dynamics in the centralvisual pathways. Trends in neurosciences, 18(10):451–458, 1995.

[DVAT82] R.L. De Valois, D.G. Albrecht e L.G. Thorell. Spatial frequency selectivity of cellsin macaque visual cortex. Vision research, 22(5):545–559, 1982.

[FFJ+98] KJ Friston, P. Fletcher, O. Josephs, A. Holmes, MD Rugg e R. Turner. Event-relatedfmri: characterizing differential responses. Neuroimage, 7(1):30–40, 1998.

[GW90] C.D. Gilbert e T.N. Wiesel. The influence of contextual stimuli on the orientationselectivity of cells in primary visual cortex of the cat. Vision research, 30(11):1689–1701, 1990.

[HD97] P.R. Huttenlocher e A.S. Dabholkar. Regional differences in synaptogenesis in humancerebral cortex. The Journal of comparative neurology, 387(2):167–178, 1997.

[HW59] D.H. Hubel e T.N. Wiesel. Receptive fields of single neurones in the cat’s striatecortex. The Journal of physiology, 148(3):574–591, 1959.

[HW62] D.H. Hubel e T.N. Wiesel. Receptive fields, binocular interaction and functionalarchitecture in the cat’s visual cortex. The Journal of physiology, 160(1):106, 1962.

[JP87] J.P. Jones e L.A. Palmer. An evaluation of the two-dimensional gabor filter model ofsimple receptive fields in cat striate cortex. Journal of Neurophysiology, 58(6):1233–1258, 1987.

19

REFERÊNCIAS

[MNS09] E.A. Mukamel, A. Nimmerjahn e M.J. Schnitzer. Automated analysis of cellularsignals from large-scale calcium imaging data. Neuron, 63(6):747–760, 2009.

[MUY+08] Y. Miyawaki, H. Uchida, O. Yamashita, M. Sato, Y. Morito, H.C. Tanabe, N. Sa-dato e Y. Kamitani. Visual image reconstruction from human brain activity using acombination of multiscale local image decoders. Neuron, 60(5):915–929, 2008.

[NKNG11] T. Naselaris, K.N. Kay, S. Nishimoto e J.L. Gallant. Encoding and decoding in fmri.Neuroimage, 56(2):400–410, 2011.

[NPK+09] T. Naselaris, R.J. Prenger, K.N. Kay, M. Oliver e J.L. Gallant. Bayesian reconstruc-tion of natural images from human brain activity. Neuron, 63(6):902, 2009.

[NVN+11] S. Nishimoto, A.T. Vu, T. Naselaris, Y. Benjamini, B. Yu e J.L. Gallant. Recons-tructing visual experiences from brain activity evoked by natural movies. CurrentBiology, 21(19):1641–1646, 2011.

[Pol09] Polyak. Visual input to the brain goes from eye to lgn and then to primary visualcortex, or area v1, which is located in the posterior of the occipital lobe. adaptedfrom polyak (1957), in http://webvision.med.utah.edu/book/part-ix-psychophysics-of-vision/the-primary-visual-cortex. 2009.

[TDS+01] F.E. Theunissen, S.V. David, N.C. Singh, A. Hsu, W.E. Vinje e J.L. Gallant. Es-timating spatio-temporal receptive fields of auditory and visual neurons from theirresponses to natural stimuli. Network: Computation in Neural Systems, 12(3):289–316, 2001.

[TDT81] DJ Tolhurst, AF Dean e ID Thompson. Preferred direction of movement as an elementin the organization of cat visual cortex. Experimental Brain Research, 44(3):340–342,1981.

20

análise automática de imagens de fmri -...

Documents