análise automática de imagens de fmri -...
TRANSCRIPT
FACULDADE DE ENGENHARIA DA UNIVERSIDADE DO PORTO
Análise Automática de Imagens defMRI
Nuno P. P. A. Sousa
PREPARAÇÃO DA DISSERTAÇÃO
Mestrado Integrado em Bioengenharia
Orientador: João Manuel R. S. Tavares (FEUP/DEMec)
27 de Janeiro de 2013
Análise Automática de Imagens de fMRI
Nuno P. P. A. Sousa
Mestrado Integrado em Bioengenharia
27 de Janeiro de 2013
Resumo
A partir das várias ferramentas existentes da imagiologia médica o estudo dos processos cog-nitivos sensoriais tem sido progressivamente mais capaz de correctamente mostrar a associação deprocessos com zonas específicas do cérebro
Recentemente, foi possível a partir da aquisição de imagens de Ressonância Magnética Fun-cional (fMRI) reconstruir parcialmente as imagens que estavam a ser visualizadas pelo pacientedurante a aquisição. Este esforço de a partir das imagens de fMRI reconstruir os estímulos visuaisque reconstruiram a resposta, assenta principalmente sobre a elaboração de modelos descodifi-cantes (decoding) da actividade cerebral. O processo de encontrar estes modelos para o casodescodificante é muito mais complexo do que fazer o mesmo para os modelos em sentido oposto,ou seja codificantes (encoding). Daí haver uma vantagem em realizar modelos codificantes á par-tida e posteriormente passar-los por métodos conhecidos a modelos descodificantes que permitemas actividades fantásticas de descodificação da imagem como vista, pelo Córtex visual do ser hu-mano.
Dado o impacto que prever a resposta de um campo receptor (Receptive Field - RF) para o es-timulo permite depois realizar o procedimento inverso, torna-se crítico fazer-lo o melhor possível.A qualidade dos resultados nesta etapa está intrinsecamente ligada aos resultados finais do mo-delo de decoding. Este modelo de decoding é usado em análise automática de fMRI para extrairinformação a partir da actividade apresentada.
Este estudo foca as técnicas mais avançadas para a modelação da resposta neuronal de umcampo receptor a estímulos conhecidos visuais, tanto sobre a forma de imagens estáticas, comovídeo.
Existe um concurso chamado Neural Prediction Challenge lançado pelos laboratorios Gal-lant da Universidade da California - Berkley, que avalia a eficácia destes métodos de previsão,possuindo amostras de treino e um conjunto de amostras de avaliação cujo o resultado não é co-nhecido pelos concorrentes (de maneira a garantir que o resultado é cego e não tendencioso a sobreadaptação áquelas amostras em particular).
A partir dos datasets providenciados pretende-se implementar a solução state of the art para oproblema bem como desenvolver construtivamente optimizações que melhorem estes resultados.É ainda objectivo explorar em mais detalhe uma solução com redes neuronais recursivas parao problema, visto serem uma modelação muito aproximada das vias reais pelo qual o sinal éprocessado no cérebro.
i
Abstract
From the existing medical imagiology tools, it has been progressivly more possible to correctlyshow the association between cognitive sensorial processes and the zones in the brain.
Recentlly, the aquisition of Functional Magnetic Ressonance (fMRI) imaging has enabled thepartial reconstruction of the actual images that were being exhibited by the subject during aqui-sition. This effor to transform fMRI signals into the original stimulus that trigerred that responserelyies heavilly the construction of decoding models of brain activity. The process of elaboratingsaid models is much more complicated for the decoding model than for the opposite direction -the encoding models. There is a clear advantage of first elaborating the codifying model and thenfrom it extrapolate the decoding model which can be acheived by known methods, resulting in theamazing decoding of pre visual cortex activity into images.
Given the impact of neural prediction for a Receptive Field - RF to a stymulus which will latterallow the inverse procedure, it becomes critical do it as well as we can. The quality of results inthis stage will latter determine the final decoding result’s quality. The decoding model can then beused in automated fMRI analisys to predict information from the observed brain activity.
This study focus the state of the art techniques currently used to predict neural response of aRF to known visual stimuli, on the form of static images and dynamic video.
There is a ”contest” called Neural Prediction Challenge by Gallant Labs from University ofCalifornia Berkley which sorts the efficacy of these predictive models by supplying data for de-velopment and test, and posessing a set of sample data whose neural response is not given to thesubmitants (in order to assure that the result is blind and unbiased of overfitting to those particularsamples).
From the given datasets a state of the art solution is going to be atempted, trying to improve onit constructivelly whenever ppossible, for better results. It is also objective of this work to explorein greater deteail a recurse artificial neural network solution (rANN) which is a model which isvery aproximate of the actual ways through which the visual signal is processed in the brain.
iii
Conteúdo
1 Introdução 11.1 Motivação, Aplicações . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Sucessos, estado da arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Encoding e Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Neural Prediction Challenge . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Estado da Arte 92.1 Modelo STRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Modelo no Domínio da Imagem . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3 Modelo de Potência de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . 112.4 Estimar a STRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 Aquisição . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.4.2 Correlação Inversa Normalizada . . . . . . . . . . . . . . . . . . . . . . 12
2.5 Gerar e avaliar as previsões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.6 Redes Neuronais Artificiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.7 Proposta de trabalho . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Referências 19
v
Lista de Figuras
1.1 Imagem de corte sagital da zona V1 do cérebro [Pol]. . . . . . . . . . . . . . . . 1
1.2 Conjunto de testes feito para dois sujeitos. São exibidos os padrões da linha decima, e atravéz do modelo descodificante e mapeamento da fMRI reconstruiu-separa vários ensaios cada uma das linhas abaixo, cuja média resulta na imagemfinal, com caractrísticas muito semelhantes á original [MUY+08]. . . . . . . . . 3
1.3 Reconstrução do video como observado pelo sujeito atravéz de fMRI. Esta experi-ência ficou célebre pois atravéz da aquisição de dados de fMRI, centrada no sulcoocipital(onde fica o córtex visual) com alta amostragem temporal foi possível ob-servar o que a mente humana vê. O método para esta reconstrução baseia-se numabiblioteca extensa (centenas de horas de aquisição) para o sujeito, com as respos-tas guardadas, e na média dos frames dos clips que apresentão maior afinidadecom a medição [NVN+11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.4 Modelos de encoding e decoding linearizados. [Topo] O cérebro pode ser intre-pretado como um sistema que mapeia não linearmente estimulos em actividade ce-rebral. A neurociência cognitiva tem como objectivo descubrir este mapeamentonão linear entre input e actividade cerebral; [Meio] Modelo de Encoding lineari-zante. A relação entre encoding e decoding pode ser descrita em termos de umasérie de espaços abstractos. No nosso caso particular as experiências com estímu-los visuais fazem com que os eixos da entrada sejam a iluminância correspondentea um pixel no espaço (na figura, imagens diferentes são representadas por cor di-ferente). A actividade cerebral medida em cada voxel encontra-se representadano espaço de actividade (Activity space).Os eixos do espaço de actividade repre-sentam correspondem á actividade de diferentes voceis e cada ponto do espaçorepresenta um padrão de actividade único atravéz de vários vóxeis (representadopor cores diferentes). Entre estes dois espaços encontra-se o espaço das caracte-rísticas (feature space). O mapeamento entre o espaço de entrada e o espaço dascaractrísticas é não linear, já o mapeamento entre o espaço de actividade e o decaractrísticas é linear. [Fundo] Aplicação de um classificador linear - O classifica-dor linear é um simples modelo de descodificação que pode também ser descritoem termos dos espaços de entrada, caractrística e actividade. Note-se no entantoque no modelo codificante em baixo a direcção do mapeamento corre em sentidocontrário [NKNG11]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
vii
LISTA DE FIGURAS
1.5 Método para a combinação codificação/descodificação. A relação entre encodinge decoding sugere que a melhor maneira possível para analisar fMRI consiste emquatro passos: (1) Exibir uma quantidade grande e gravar a actividade cerebral dealguns voxeis, e gerar um conjunto de treino e outro de validação. (2) Usar o da-taset de treino para estimar um ou mais modelos de codificação. Nesta etapa sãodesenvolvidos modelos não lineares que tranformam a imagem num espaço de ca-ractrísticas não lineares. Amostras modelo (tracejado com quadrados) estimados apartir dos dados de treino especificam um classificador linear. (3) Usa-se tudo istopara gerar uma actividade prevista compara-se esta com os dados de actividade(isto para o dataset de validação) escolhe-se o melhor e mede-se performance. (4)O teorema de Bayes é usado para gerar o modelo preditivo [NKNG11]. . . . . . 6
2.1 STRFs Linear (esquerda) vs Linearizado (direita) para Neurónios V1. (A - Es-querda): Linear, STRF no domínio da imagem. A entrada como é observada érepresentada como uma sequência de imagens em tons de cinzento, s(x,y, t), oestímulo é convoluido com um filtro linear espaço-temporal como o descrito naequação 2.1 o filtro é também tridimensional possuindo uma resposta para cadapixel para cada atraso no tempo. O nível de cinzento representa a resposta comoindicado pela escala. A saída deste filtro é passada por um treshold θ (que naimagem representa também a rectificação). E obtém-se a cadência instantanea dedisparo r(t) em baixo. No modelo linearizado é aplicada uma transformada e com-putada a potência gerando o espaço intermédio Sp para o qual os filtros são agorafocos, e como tal mais fácil de estimar [DG05]. . . . . . . . . . . . . . . . . . . 10
2.2 Modelo de uma rede neuronal simples. Nodos de entrada, escondidos e de saidada esquerda para a direita [Cru07]. . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 RMLP, note-se as etapas recursivas que conferem memória ao dispositivo [AMM]. 152.4 Resultados obtidos por Agrawal and Mishra, 2008 . . . . . . . . . . . . . . . . . 16
viii
Lista de Tabelas
1.1 Resultados do Neural Prediction Challenge . . . . . . . . . . . . . . . . . . . . 7
2.1 Condições de Aquisição - David & Gallant 2005 . . . . . . . . . . . . . . . . . 122.2 Calendarização das actividades necessárias à dissertação . . . . . . . . . . . . . 17
ix
Abreviaturas e Símbolos
MRI Magnetic Ressonance ImagingfMRI Functional Magnetic Ressonance ImagingRF Receptive FieldBOLD Blood Oxigenation Level DetectionANN Artificial Neural NetworksrANN Recursive Artificial Neural NetworksFFT Fourier Fast Transform; Se bem que o seu uso seja geralmente para referir a
transformada de Fourier, sem especificamente referir o uso do algoritmo FFTpara o seu cálculo
SPRF Spatio Temporal Receptive FieldrMLP Recursive Multi Layer Perceptron
xi
Capítulo 1
Introdução
A visão é um processo complicado, sabe-se que inicialmente o olho funciona como uma câ-
mara, com células que funcionam em modo foto-receptor e transmitem as suas actividades pelo
nervo óptico até uma zona do cérebro conhecida como o pré-cortex visual, também conhecido
como córtex visual primário ou cortex viso-motor [HW62].
Figura 1.1: Imagem de corte sagital da zona V1 do cérebro [Pol].
As imagens visualizadas são inicialmente captadas pela retina por células particularmente sen-
síveis (bastonetes e cones) e conduzidas pelo nervo óptico até esta zona V1 onde a informação do
que é que está a ser visto tem ainda todas as propriedades de uma imagem:
Existem associações sistemáticas entre zonas da visão e a actividade exibida por vo-
lumes (vóxeis) do cérebro e a iluminância que incidiu sobre as zonas da retina corres-
pondentes a este.
1
Introdução
Ou seja: existe um conjunto de vóxeis que contèm ainda a imagem relativamente pura, e
a partir do qual é possível reocnstruir o estímulo observado [NPK+09]. No entanto esta área
está ainda praguejada de efeitos não lineares, inicialmente as experiências neste campo usando
imagens muito rígidas como barras[HW59] [DVAT82] [JP87], senos, ruido branco, descubriam
que mesmo no cortex visual primário, a informação das imagens é ajustada dinamicamente para
os níveis de iluminação e contraste da imagem total. Existem comportamentos com resposta não
linear, como por exemplo a soma temporal dos estímulos [TDT81] bem como modulação não
clássica do campo receptivo [GW90]. Note-se que a grande maior parte dos estudos feitos até
agora sobre o funcionamento dos neurónios do córtex visuais foi elaborado usando mamíferos
como o gato ou o macaco, estima-se que o funcionamento dos neurónios seja aproximadamente
igual para seres humanos. Os mecanismos de processamento visual são aproximadamente iguais
entre o ser humano e os primatas mais próximos.
Os estímulos podem ser captadas por métodos não invasivos como seja a ressonância magné-
tica funcional (fMRI), que progressivamente têm sido capazes de exibir detalhes muito grandes
até ao ponto de observer campos receptivos individuais [FFJ+98]. Esta técnica funciona essen-
cialmente pelos comportamentos hemodinâmicos do cérebro que aumenta o volume de oxigénio
fornecido e provoca alterações visiveis na ressonância. Para maior detalhe há ainda métodos com
a injecção de contrastes como Cálcio [MNS09] que de futuro refinando esta tecnologia permitirão
aplicações ainda mais interessante.
1.1 Motivação, Aplicações
O estudo mais aprofundado dos mecanismos da visão abrem a porta a várias tecnologias ver-
dadeiramente avançadas como por exemplo:
• Reparação de visão atravéz de implantes e sensores
• Captação dos estímulos visuais em sonhos
• Detectores de Verdade e Mentira atravéz das respostas visuais evocadas nos sujeitos
• Sistemas de realidade aumentada com conhecimento eficaz do que é que está a ser visto
• Interfaces computador-cérebro com recurso á componente visual da imaginação como forma
de comunicação
• Investigação médica, psiquiátrica, psicológica
Existe um interesse académico muito considerável na melhoria dos sistemas de encoding neu-
ronal. Afinal o conhecimento contemporâneo do cérebro ao nível dos processos cognitivos e de
como eles se desenvolvem fisicamente para o caso da visão pode dar ferramentas que permitam
aprufundar todas as outras áreas de reverse-engineering do cérebro humano.
2
Introdução
1.2 Sucessos, estado da arte
O decoding é o objectivo final para tecnologias que para este campo tentam observar o que
o cérebro observa como o trabalho dos laboratórios Gallant em Berkley, Universidade da Cali-
fórnia. Investigadores da ATR Computational Neurostudies Institute em Tokyo conseguiram em
2008 [MUY+08] fazer mapeamento tal que foi possível reconstruir imagens estáticas da fóvea
projectadas no cortex e observadas por fMRI, com detalhe suficiente para ser possível ler a partir
das imagens reconstruidas a palavra “neuron”.
Figura 1.2: Conjunto de testes feito para dois sujeitos. São exibidos os padrões da linha de cima, eatravéz do modelo descodificante e mapeamento da fMRI reconstruiu-se para vários ensaios cadauma das linhas abaixo, cuja média resulta na imagem final, com caractrísticas muito semelhantesá original [MUY+08].
Este sucesso foi mais recentemente ultrapassado pelos investigadores do Gallant Lab, que
criaram um modelo de mapeamento e decoding bom suficiente para, com recurso a cerca de um
milhão de segundos de video e respostas medidas serem capazes de obter uma silhueta dinamica
daquilo que o sujeito estava a ver [NVN+11].
Estes mapeamentos feitos até agora residem mais no treino de classificadores com muitos
dados do que no uso de modelos de decoding perfeitos, no entanto sabe-se que as caractrísticas
extraidas para estes classificadores a partir da fMRi podem ser adaptadas pelos modelos de desco-
dificação elaborados, possuindo um bom modelo de descodificação pode-se classificar em função
do output esperado pelo descodificador em vez da imagem directa, com resultados melhores, pois
libertam o classificador de modelar também a descodificação integralmente.
3
Introdução
Figura 1.3: Reconstrução do video como observado pelo sujeito atravéz de fMRI. Esta experiênciaficou célebre pois atravéz da aquisição de dados de fMRI, centrada no sulco ocipital(onde fica ocórtex visual) com alta amostragem temporal foi possível observar o que a mente humana vê. Ométodo para esta reconstrução baseia-se numa biblioteca extensa (centenas de horas de aquisição)para o sujeito, com as respostas guardadas, e na média dos frames dos clips que apresentão maiorafinidade com a medição [NVN+11].
1.3 Encoding e Decoding
Sabe-se que é possível a partir dum modelo de codificação (encoding) atravéz de métodos
bayesianos simples chegar a um descodificador. Levanta-se a questão portanto da escolha entre o
estudo do encoding e do decoding. Consideremos os dois processos presentes na figura 1.4.
O mapeamento entre o espaço de entrada da fig. 1.4 e o espaço das caractrísticas presume-se
não linear, pois é conhecido o funcionamento dos neurónios e sabe-se que estas computações vão
ser também não lineares.
Portanto, na escolha entre estudar a codificação ou descodificação temos os seguintes fac-
tores, a resposta de um unico campo receptor é possível medir com bastante precisão usando
agulhas micro eléctrodos na zona, ou agulhas directamente num neurónio, já quando medimos
vários usando fMRI ou outra técnica como a MEG a velocidade de amostragem temporal é de
cerca de 1s [MNS09, Bux02] nas melhores condições possíveis. Pensando no assunto chega-se
á conclusão que é mais fácil partir do input experimentar combinações para produzir caractrísti-
cas que depois mapeiam bem para o espaço de actividade. Fazer o inverso, ou seja a partir da
actividade do neurónio para a imagem, implicaria que ficaria no meio, uma classificação linear
4
Introdução
Figura 1.4: Modelos de encoding e decoding linearizados. [Topo] O cérebro pode ser intrepretadocomo um sistema que mapeia não linearmente estimulos em actividade cerebral. A neurociênciacognitiva tem como objectivo descubrir este mapeamento não linear entre input e actividade ce-rebral; [Meio] Modelo de Encoding linearizante. A relação entre encoding e decoding pode serdescrita em termos de uma série de espaços abstractos. No nosso caso particular as experiênciascom estímulos visuais fazem com que os eixos da entrada sejam a iluminância correspondente aum pixel no espaço (na figura, imagens diferentes são representadas por cor diferente). A activi-dade cerebral medida em cada voxel encontra-se representada no espaço de actividade (Activityspace).Os eixos do espaço de actividade representam correspondem á actividade de diferentes vo-ceis e cada ponto do espaço representa um padrão de actividade único atravéz de vários vóxeis(representado por cores diferentes). Entre estes dois espaços encontra-se o espaço das caracterís-ticas (feature space). O mapeamento entre o espaço de entrada e o espaço das caractrísticas é nãolinear, já o mapeamento entre o espaço de actividade e o de caractrísticas é linear. [Fundo] Aplica-ção de um classificador linear - O classificador linear é um simples modelo de descodificação quepode também ser descrito em termos dos espaços de entrada, caractrística e actividade. Note-se noentanto que no modelo codificante em baixo a direcção do mapeamento corre em sentido contrário[NKNG11].
antes do método não linear a ser testado, e visto que temos a imagem toda para realizar a con-
versão entrada-caractrística, e possuimos apenas uma associação N para 1 das caractrísticas para
a actividade de um neurónio teriamos uma abundancia de combinações que faria da classificação
5
Introdução
uma etapa crítica pois podiamos variar o N e só depois ver um mapeamento qualquer não linear
para gerar a imagem. A convergência da classificação ficaria portanto muito mais díficil de obter
e teriamos que gastar muitos mais recursos computacionais [NKNG11].
Para exemplificar o excesso em cálculo considere-se que a etapa linear gera A possibilidades
e para a não linear geram-se B possibilidades e o peso da não linearidade é dois (optimista - por
exemplo uma ANN com duas camadas). É facil verificar que A×B2 < (A×B)2 ou seja, existe
uma vantagem em realizar a etapa não linear primeiro e ir pelo encoding. Para mais discussão
sobre o asssunto ver Naselaris et al. 2011.
Possouindo um modelo predictivo é apenas uma questão de aplicar o teorema de Bayes para
gerar o modelo descodificante.
Figura 1.5: Método para a combinação codificação/descodificação. A relação entre encoding edecoding sugere que a melhor maneira possível para analisar fMRI consiste em quatro passos: (1)Exibir uma quantidade grande e gravar a actividade cerebral de alguns voxeis, e gerar um conjuntode treino e outro de validação. (2) Usar o dataset de treino para estimar um ou mais modelos decodificação. Nesta etapa são desenvolvidos modelos não lineares que tranformam a imagem numespaço de caractrísticas não lineares. Amostras modelo (tracejado com quadrados) estimados apartir dos dados de treino especificam um classificador linear. (3) Usa-se tudo isto para gerar umaactividade prevista compara-se esta com os dados de actividade (isto para o dataset de validação)escolhe-se o melhor e mede-se performance. (4) O teorema de Bayes é usado para gerar o modelopreditivo [NKNG11].
6
Introdução
Tabela 1.1: Resultados do Neural Prediction Challenge
Utilizador Data Método Tempo de Execução Pontuação (CC)Imagemmoliver 2013-01-02 3d Wavelets HiRes 11:35 0.533moliver 2012-12-28 3d Wavelets 12:16 0.519pmineault 2011-03-16 LeCunning 22:20 0.491pmineault 2010-05-06 GLMboosttreelog 15:45 0.431david 2006-12-01 pfft 12:38 0.430Videomoliver 2012-12-2 3d Wavelets 12:29 0.501david 2005-12-12 pfft 12:12 0.457david 2005-12-13 psfft 16:39 0.405istevenson 2012-07-19 basisinseppfft 17:03 0.384istevenson 2012-07-25 slng-pseudoBoost 10:57 0.374
1.4 Neural Prediction Challenge
Disponibilizado pela Gallant Labs da UC Berkeley este concurso é puramente académico, não
possui um prémio ou data de fim. O objectivo do mesmo é facilitar as transações entre investi-
gadores da neurociência cognitiva, permitindo acesso abundante a dados muito priviligiados que
seriam dificieis de obter de outra forma, facilitando portanto o contributo e experiência de métodos
novos para o encoding da resposta neuronal. Os organizadores têm também um interesse próprio
na melhoria destes métodos pois com melhoram também o seu trabalho de descodificação.
Está activo desde 2005, consiste numa base de dados de cerca de 4GiB de estímulos e res-
postas de um neurónio. Para grande parte destes estímulos estão disponíveis as respostas para os
restantes não. Este subgrupo para o qual só é fornecido o video ou as imagens deve ser anali-
zado pelos concorrentes e somente a resposta prevista do neurónio é submetido á plataforma do
Neural Prediction Challenge. Esta resposta é comparada internamente com as respostas reais me-
didas e atravéz do coeficiente de correlação cruzada (visto ser um só RF o sinal é unidimensional)
obtém-se o valor de performance de cada tentativa.
Naturalmente seria possível pelo método do gradiente descendente ir aproximando as soluções
submetidas das reais, por isso cada concorrente só pode submeter muito poucas vezes, de maneira
a garantir o não uso desses métodos.
Até muito recentemente a melhor solução submetida foi por um dos do próprio laboratório
(david), recentemente (em 2013) apareceu um resultado melhor, mas que ainda não é objectivo
desta monografia por ter aparecido durante a elaboração da mesma.
Há três tipos de dados fornecidos, resposta a sons do cortex auditivo, resposta de neurónios V1
a imagens estáticas (a serem alteradas com o tempo numa cadência lenta) e resposta de neurónios
V1 a vídeo “natural” (ou seja, não senos e barras mas cenas de filmes, tv entre outros corres-
pondentes a situações reais observáveis do mundo). Escolheu-se incidir o foco na vertente visual
(ambas, pois partilham o mesmo sistema, aliás como vemos os algoritmos são mais ou menos
adaptáveis na tabela 1.1). A escolha da vertente visual vem do facto de que a zona observável é
7
Introdução
maior na fMRI e como tal é onde a maior parte dos esforços têm sido conduzidos, observar o cór-
tex auditivo é mais complicado pois os sinais são menores em dimensão e portanto ocupam menos
espaço na sua forma mais pura, são rapidamente enviados para a zona da broca para processa-
mento de fala, e processos de muito mais alto nível ocorrem na identificação dos sons[HD97], não
é portanto tão convidativo de estudar como o córtex v1.
Possuem-se cerca de 4GiB de dados correspondentes a 3 ensaios com vídeo e 14 com imagens
estáticas, incluindo os estímulos (imagens / vídeo). o vídeo foi downsampled consideravelmente
apresentando 12×12 pixeis representando a iluminância para a zona, por motivos de espaço.
O resultado de maior interesse é o de vídeo pois faz com que a observação do neurónio tenha
em conta aspectos complexos espectro-temporais, além dos espaço-espectrais, lineares, etc.
8
Capítulo 2
Estado da Arte
2.1 Modelo STRF
O Campo Receptor Espacio-temporal (STRF) é uma função que mapeia estímulos visuais a
uma resposta neuronal. O estímulo e a resposta podem ser representados como dois sinais varian-
tes no tempo. Seja: s(Xi, t) o estímulo espaciotemporal, e r(t) a cadência de disparo instantânea
de um neurónio no tempo t. Coonsidere-se os pontos do espaço discreto Xi ∈ X1,X2,X3, · · · ,XN e
do tempo t=1. . . T. Os neurónios sensoriais possuem normalmente uma cadência de disparo nor-
malmente descrita pelo modelo linear rectificado [TDS+01]:
r(t) = |N
∑i=1
U
∑u=0
h(X j,u)s(X j, t−u)−θ + ε|+ (2.1)
Como é vísivel na equação 2.1, o valor do filtro linear h nos vários pontos do espaço Xi, e o
atraso no tempo u descreve como um estímulo presente em t−u influencia a velocidade de disparo
no tempo t.
Os atrazos são sempre menores do que U e maiores do que zero portanto, é feita a assunção
que o sistema é causal, não antecipativo, e com uma memória com o tamanho máximo de U .
Valores positivos de h indicam uma resposta excitatória com progressivamente maiores valores
de s, já valores negativos implicam que os canais do mecanismo são inibitivos e diminuem a
resposta.
A notação |x|+(= max(0,x)) representa a rectificação de meia onda, pois é este o compor-
tamento típico observado nos neurónios corticais. Há também um threshold especificado pelo
escalar θ [AG+91]. Há ainda uma parte do sinal observado que não é explicado e que pode cor-
responder a ruidos ou a uma parte não linear da resposta do sistema que não está modelada neste
modelo que é representada por ε(t), ou seja o sinal residual.
9
Estado da Arte
2.2 Modelo no Domínio da Imagem
É aceite que as células simples da área V1 repondem a estimulos que possuem a orientação,
frequência espacial e fase espacial apropriadas [DVAT82]. Estas células podem ser modeladas
como filtros espaciotemporais lineares, aplicadas ao estímulo [JP87, DOF95]. De acordo com esta
intrepretação do papel das células concebe-se o Modelo no Domínio da Imagem, onde as entradas
dos STRFs são a iluminância em cada posição retinotópica, ou seja os vários XI = (x,y).
Na figura 2.1 á esquerda é possível ver um esquema do Modelo no Domínio da Imagem com
um STRF simulado na caixa central. Cada imagem do STRF indica uma afinação espacial a
momentos sucessivos de atraso. A claro encontram-se zonas da imagem com reposta excitatória
para o neurónio, e a negro resposta inibitória.
O modelo no Domínio da imagem é portanto uma aplicação do modelo descrito pela equação
2.1 aplicado ao caso do sinal imagem, sendo que portanto os filtros têm as dimensões apropriadas.
Figura 2.1: STRFs Linear (esquerda) vs Linearizado (direita) para Neurónios V1. (A - Esquerda):Linear, STRF no domínio da imagem. A entrada como é observada é representada como umasequência de imagens em tons de cinzento, s(x,y, t), o estímulo é convoluido com um filtro linearespaço-temporal como o descrito na equação 2.1 o filtro é também tridimensional possuindo umaresposta para cada pixel para cada atraso no tempo. O nível de cinzento representa a resposta comoindicado pela escala. A saída deste filtro é passada por um treshold θ (que na imagem representatambém a rectificação). E obtém-se a cadência instantanea de disparo r(t) em baixo. No modelolinearizado é aplicada uma transformada e computada a potência gerando o espaço intermédio Sp
para o qual os filtros são agora focos, e como tal mais fácil de estimar [DG05].
10
Estado da Arte
2.3 Modelo de Potência de Fourier
As células mais complexas da zona V1 têm propriedades semelhantes ás simples no que toca
á sua afinação (resposta ás frequências) excepto que são insensíveis á fase espacial [DVAT82].
A luminância num ponto do espaço pode ser excitatória ou inibitória para um neurónio de
fase invariante, dependendo da luminância em locais próximos. O modelo no domínio da ima-
gem exige excitação ou inibição consistentes e constantes em cada posição e portanto não con-
segue modelar adequadamento o comportamento de STRFs de fase invariante como estas células
complexas.[DA01]
Vários modelos até agora foram propostos para explicar a resposta das células complexas. O
mais comum desdes será o modelo da energia que assume que a resposta duma célula complexa
é proporcional á Energia espacial de Fourier que passe na sua orientação e gama de frequências
passa-banda [AB85].
O modelo de Potência de Fourier é consistente com os modelos anteriores, consiste numa
transformação não linear que permite uma estimação eficiente dos STRFs neuronais. Neste mo-
delo uma transformada espacial de potência de Fourier é introduzida na entrada. Ou seja, a entrada
para o STRF é definida como a potência de Fourier variante no tempo do estímulo : Sp(ωx,ωy, t).
Sp(ωx,ωy, t) = |Sp(ωx,ωy, t)|2 (2.2)
Sendo que cada canal de entrada do STRF corresponde a uma frequencia espacial com duas
dimensões: Xi = (ωx,ωy). Esta transformada de Fourier remove a fase mas preserva a informação
sobre a orientação do estímulo e frequência espacial. Assim, para um neurónio que obedeça ao
modelo de energia, a PFFT indicará a afinação excitante para uma pequena gama de canais de
entrada. No entanto este modelo é ainda mais generalista que o modelo da energia porque per-
mite múltiplos canais de frequência excitarem ou inibirem um neurónio e não restringe a afinação
espectral ser a mesma para cada tempo de atraso.
As etapas posteriores são idênticas ao modelo no domínio da imagem referenciado na secção
2.2. Na figura 2.1 é possível ver esta metodologia de previsão, e os resultados mais concordantes
com a observação que no final resultam. Isto vem do facto do modelo PFFT não preservar o afina-
mente de fase, porque de resto o STRF tem as mesmas caractrísticas de orientação e frequência.
2.4 Estimar a STRF
O procedimento para fazer esta estimativa, é um de ajuste de classificação. Para tal começa-
mos por dividir os dados num conjunto de treino e outro de validação. Sugere-se como boa prática
90% para o conjunto de treino ou estimação, e 10% para o conjunto de validação. Havendo poucas
amostras pode-se praticar oversampling (ou seja repetir alguns segmentos), de maneira a conseguir
esta razão entre os dois conjuntos.
11
Estado da Arte
Tabela 2.1: Condições de Aquisição - David & Gallant 2005
Número de Neurónios 72 bem isolados, area parafovealVelocidade de Amostragem 8KhzSujeitos da experiência 2 macacos adultos (Macaca mulatta)Equipamento de Aquisição Eléctrodos de Tungsténio
Janela de aquisição feita á medidaFixação Animais treinados por recompensa a fixar ponto
Sensor de indução na esclera garantiu 0.35o
2.4.1 Aquisição
Técnicamente a aquisição destes dados pode ser feita a partir de primatas, com eléctrodos
introduzidos no cérebro. É sabido que os sistemas visuais a este nível entre os primatas mais
próximos e os humanos são quase totalmente iguais. Os segmentos devem ser de 5-10 s de com-
primento, e devem conter repetições para estimativa de erros e validade dos sinais. A base de
dados que se está disponível por exemplo relata as condições experimentais indicadas na Tabela
2.1.
Note-se que a fixação é importante, o sujeito deve fixar um ponto fixo sem mover o olho
os movimentos involuntários (possível durante curtos períodos de tempo). Para tal os macacos
foram treinados a fixar um ponto durante alguns segundos e era-lhes dado um sumo que eles
gostavam. Isto foi usado nas experiências também. Foi introduzido um sensor no olho para medir
movimentos. Se proventura o sujeito afastasse o olhar em mais do que 0.35o o ensaio era anulado.
Por isso há a garantia que aproximadamente a mesma zona retinotopical corresponde á imagem
exibida.
2.4.2 Correlação Inversa Normalizada
Neste método usa-se a correlação inversa normalizada para estimar os STRF linear e linea-
rizados a partir dos datasets de treino. Para escrevermos o STRF da equação 2.1 na sua forma
linear algebrica, admitindo que tempos T amostras e N canais, para gerar a matriz de esímulo S,
definimos uma matriz Su (N×T ):
Su =
s(1,1−u) s(2,1−u) · · · s(N,1−u)
s(1,2−u) s(2,2−u) · · · s(N,2−u)...
.... . .
...
s(1,T −u) s(2,T −u) · · · s(N,T −u)
(2.3)
Vê-se que cada fila de Su contém os N coeficientes que descrevem o estímulo a um lag u antes
de cada ponto no tempo. A matriz completa pode ser então obtida pela seguinte concatenação:
S = [S0S1S2 · · ·SU ] (2.4)
12
Estado da Arte
E como tal cada fila de S contém toda a informação do estímulo que contribui para a resposta a
cada ponto do tempo. Sendo portanto que S é uma matriz de dimensão N×Y,Y = XU .
Se definirmos agora o filtro h (que é o nosso STRF) como um vector de dimensão Y ×1 onde
cada valor deste vector define o ganho para uma posição espacial (canal de entrada) e um atraso
(um u) , podemos finalmente re-escrever a equação 2.1 na forma:
r = |Sh−θ + ε|+ (2.5)
E ficamos com um vector r e ε com dimensões T ×1.
A partir da equação 2.5 podemos chegar á seguinte fórmula:
h =1tC−1
ss ST r (2.6)
Onde C−1ss é a matrix inversa de autocorrelação do estímulo definida por:
Css = ST S/T ( T denota a operação de transposição) (2.7)
2.5 Gerar e avaliar as previsões
Se gerarmos as respostas neuronais de acordo com o modelo da figura 2.1 podemos, depois de
passos de downsampling e adaptação para compatibilidade com o sinal real observado, validar o
modelo. Para tal , cosiderando a resposta prevista rprev e a resposta observada robs , subtraimos as
médias rprev e robs e computamos o coeficiente de correlação ρ entre os dois:
ρ =
√rprevrobsr2
prevr2obs
(2.8)
A teoria diz que o coeficiente de correlação ao quadrado, ρ2 indica a variancia da resposta
observada explicada pela resposta prevista. Note-se no entanto que os sinais de ruido intruduzem
erros na estimativa da STRF e no dataset de validação.
Seja portanto Sval o estímulo de validação, podemos ter:
robs = Svalh+ εnlin = rlin + εlin (2.9)
O resíduo εnl resulta exclusivamente das propriedades não lineares. Se não houvesse ruido a
STRF poderia ser estimada na perfeição e a resposta prevista seria idêntica á componente linear
da resposta observada. A equação 2.8 simplificaria para:
ρ2ideal =
r2lin
r2lin + ε2
nl(2.10)
13
Estado da Arte
No entanto como visto o resido depende também do ruido:
ε = εnl + εruido (2.11)
E como tal a expressão 2.10 combinada com a 2.11 fica:
ρ2 =
r2lin
r2lin + ε2
nl + ε2ruido
(2.12)
Outra expressão de interesse derivada desta será a variância explicada pela previsão se não
existisse ruido:1
ρ2 =1
ρ2ideal
+AM
(2.13)
Onde M é o número de repetições e A uma constante associada á variabilidade de ensaio para
ensaio.
Para obter um parâmetro aceitavelmente confiável de ρideal convém usar alguma validação
cruzada, e experimentar com várias subamostragens subconjuntas dos dados de validação.
2.6 Redes Neuronais Artificiais
As redes neuronais artificiais são classificadores baseados na ideia de nodos com função de
transferência simples, mas que na sua combinação conseguem modelar fenómenos muito comple-
xos. O caso da rede neuronal simples, como a que é ilustrada na figura 2.2, é inadequado para
modelar os processos envolvidos, pois não possui memória e é portanto insensível ás amostras
temporais anteriores daquela que está a tratar. [DA01]
No entanto adicionando ligações de camadas posteriores a anteriores, ou seja usando recursi-
vidade gera-se outro tipo de redes neuronais chamadas Redes Neuronais Recursivas (RANN ou
RNN).
Estas contém memória, e conseguem portanto modelar comportamentos dinâmicos como a
resposta a frequência, fase, etc. Um caso destes é o Perceptrão, multi camada recursivo (RMLP).
Matemáticamente mostra-se que os outputs são dados por:
X1(n+1) = γ1(ω1
[x1(n)
u(n)
]);X2(n+1) = γ2(ω2
[x2(n)
u(n)
]);XO(n+1) = γO(ωO
[xO(n)
u(n)
]) (2.14)
Em que XO(n+1) é o output da camada de output e os outros dois são os outputs da camada
um e dois. ω é o peso e γ é a função de activação.
Outra maneira de adicionar as capacidades á rede para tratar este problema é o aumento mas-
sivo do seu tamanho, para incluir em paralelo na entrada nodos para cada canal, para cada instante
no tempo. Obviamente a rede ficará muito maior, mas considerando as frequências críticas e o
número de caractrísticas estamos a falar de cerca de dez mil nodos para uma amostragem que
permite frequências de 10Hz a 8KHz, ou seja, incluimos nodos para tratar um décimo de segundo.
14
Estado da Arte
Figura 2.2: Modelo de uma rede neuronal simples. Nodos de entrada, escondidos e de saida daesquerda para a direita [Cru07].
Figura 2.3: RMLP, note-se as etapas recursivas que conferem memória ao dispositivo [AMM].
O trabalho que propôs inicialmente o RMLP [AMM] para resolver este problema está na opi-
nião do autor relativamente mal optimizado, sendo possível ver que a sua falta de resultados advem
mais da falta de tamanho da rede (e por consequência baixa janela de resolução temporal) do que
por falha do método em si. Note-se na imagem 2.4 que a rede devolve resultados espacialmente
muito “brutos”, com pouco detalhe temporal. Os autores confirmam que há amplo espaço para
optimização.
No entanto é preciso ter as considerações que as rANN podem facilmente ficar caóticas, no
caso do MRLP a estabilidade deve ser aceitavel, mas os fenómenos de destabilização da rede com
o crescimento de input ou das camadas escondidas são conhecidos [Cru07].
15
Estado da Arte
Figura 2.4: Resultados obtidos por Agrawal and Mishra, 2008
2.7 Proposta de trabalho
Ambas as metodologias vão ser testadas. A PFFT por ser a incumbente melhor, e as Redes
Neuronais Recursivas por modelarem bem (no sentido em que os seus elementos são fieis aos
processos reais que se passam no cérebro) e estarem ainda muito pouco trabalhadas no que toca
a optimizações. Haverá possivelmente espaço para a conjunção das duas abordagens, sendo que
redes neuronais em função da imagem passada já pela transformada pode ter algum mérito, pois
a componente linear do input é bem tratada pela abordagem PFFT que já vai ao encontro do que
se sabe do funcionamento dos neurónios corticais V1, e as componentes não lineares podem ser
modeladas pela ANN.
As redes neuronais simples e massivas sendo grandes o suficiente podem modelar espaço e
tempo sem necessidade á recursividade, esta hipótse será confrontada com o uso de rANN.
Dentro das rANN, propoem-se decidir se o RMLP é a topologia adequada para esta aplicação,
tal não é necessariamente verdade. O treino de RMLP já está bem estudado devido á sua entidade
estrutural ser simples e bem conhecida ( o perceptrão), mas também se coloca a hipótse duma to-
pologia diferente, com recursividade entre camadas e não só entre perceptrões, no entanto note-se
que isto aumenta gigantescamente a complexidade do problema em termos de custos computa-
cionais, de facto no caso ’massivo’ de se considerar uma topologia com todas as recursividades
possíveis todas as combinações entre nodos têm uma ligação e o crescimento da complexidade é
factorial tornando somente redes muito pequenas exequiveis.
A ideia, como é muitas vezes metodologia com estas redes, é experimentar e avaliar os resul-
tados.
“Eu não gosto nada de redes neuronais, um indivíduo nunca sabe o que é que elas
andam a fazer, só se vê se funcionou ou não e muda-se uma coisa ou outra” - Professor
Aurélio Campilho, FEUP, 2012
16
Estado da Arte
Tabela 2.2: Calendarização das actividades necessárias à dissertação
Actividade Data Inicial Data finalInvestigação e Recolha de Material N.A Jan.Implementar uma solução PFFT -STRF
Fev. Mar.
Desenvolver e confirmar as funda-ções matemáticas referentes ás Re-des Neuronais
Fev. Fev.
Analisar e Optimizar a soluçãoPFFT
Mar. Abr.
Implementar e testar a soluçãoRMM (Massiva ou não)
Mar. Abr.
Verificação de resultados, Compa-rações e Conclusões
Abr. Mai.
Escrita da Dissertação, PequenasOptimizações onde for possível
Jun. Jun.
Submeter resultados á Neural Pre-diction Challenge, se possível pu-blicar um artigo
Jun.
O plano de trabalhos proposto está presente na tabela 2.2.
O Software a ser usado será o Matlab, com a STRFpak toolbox da Gallant Labs, e o RMLP
toolbox + prtools para cada uma das abordagens. Existe a possibilidade de vir a recorrer à Grid-
FEUP para realizar a computação pesada com recursos computacionais muito superiores aos do
computador comum.
Em ultima análise os métodos a serem testados parecem oferecer a possibilidade de testar com-
binações novas para este problema. Será tentada inovação nas redes neuronais, e optimização no
pfft, se bem que com o sentido crítico que as tabelas de resultados do Neural Prediction Challenge
possuem vários autores que tentam várias modificações ao algoritmo todas com resultados piores
do que o inicial.
17
Referências
[AB85] E.H. Adelson e J.R. Bergen. Spatiotemporal energy models for the perception ofmotion. J. Opt. Soc. Am. A, 2(2):284–299, 1985.
[AG+91] D.G. Albrecht, W.S. Geisler et al. Motion selectivity and the contrast-response func-tion of simple cells in the visual cortex. Visual neuroscience, 7(6):531–546, 1991.
[AMM] P. Agrawal, G. Mishra e A. Mukerjee. Neural prediction challenge.
[Bux02] R.B. Buxton. Introduction to functional magnetic resonance imaging: principles andtechniques. Cambridge University Press, 2002.
[Cru07] H. Cruse. Neural networks as cybernetic systems. Neural Networks, 2:2006, 2007.
[DA01] P. Dayan e L.F. Abbott. Theoretical neuroscience, volume 31. MIT press Cambridge,MA, 2001.
[DG05] S.V. David e J.L. Gallant. Predicting neuronal responses during natural vision.Network: Computation in Neural Systems, 16(2-3):239–260, 2005.
[DOF95] G.C. DeAngelis, I. Ohzawa e R.D. Freeman. Receptive-field dynamics in the centralvisual pathways. Trends in neurosciences, 18(10):451–458, 1995.
[DVAT82] R.L. De Valois, D.G. Albrecht e L.G. Thorell. Spatial frequency selectivity of cellsin macaque visual cortex. Vision research, 22(5):545–559, 1982.
[FFJ+98] KJ Friston, P. Fletcher, O. Josephs, A. Holmes, MD Rugg e R. Turner. Event-relatedfmri: characterizing differential responses. Neuroimage, 7(1):30–40, 1998.
[GW90] C.D. Gilbert e T.N. Wiesel. The influence of contextual stimuli on the orientationselectivity of cells in primary visual cortex of the cat. Vision research, 30(11):1689–1701, 1990.
[HD97] P.R. Huttenlocher e A.S. Dabholkar. Regional differences in synaptogenesis in humancerebral cortex. The Journal of comparative neurology, 387(2):167–178, 1997.
[HW59] D.H. Hubel e T.N. Wiesel. Receptive fields of single neurones in the cat’s striatecortex. The Journal of physiology, 148(3):574–591, 1959.
[HW62] D.H. Hubel e T.N. Wiesel. Receptive fields, binocular interaction and functionalarchitecture in the cat’s visual cortex. The Journal of physiology, 160(1):106, 1962.
[JP87] J.P. Jones e L.A. Palmer. An evaluation of the two-dimensional gabor filter model ofsimple receptive fields in cat striate cortex. Journal of Neurophysiology, 58(6):1233–1258, 1987.
19
REFERÊNCIAS
[MNS09] E.A. Mukamel, A. Nimmerjahn e M.J. Schnitzer. Automated analysis of cellularsignals from large-scale calcium imaging data. Neuron, 63(6):747–760, 2009.
[MUY+08] Y. Miyawaki, H. Uchida, O. Yamashita, M. Sato, Y. Morito, H.C. Tanabe, N. Sa-dato e Y. Kamitani. Visual image reconstruction from human brain activity using acombination of multiscale local image decoders. Neuron, 60(5):915–929, 2008.
[NKNG11] T. Naselaris, K.N. Kay, S. Nishimoto e J.L. Gallant. Encoding and decoding in fmri.Neuroimage, 56(2):400–410, 2011.
[NPK+09] T. Naselaris, R.J. Prenger, K.N. Kay, M. Oliver e J.L. Gallant. Bayesian reconstruc-tion of natural images from human brain activity. Neuron, 63(6):902, 2009.
[NVN+11] S. Nishimoto, A.T. Vu, T. Naselaris, Y. Benjamini, B. Yu e J.L. Gallant. Recons-tructing visual experiences from brain activity evoked by natural movies. CurrentBiology, 21(19):1641–1646, 2011.
[Pol09] Polyak. Visual input to the brain goes from eye to lgn and then to primary visualcortex, or area v1, which is located in the posterior of the occipital lobe. adaptedfrom polyak (1957), in http://webvision.med.utah.edu/book/part-ix-psychophysics-of-vision/the-primary-visual-cortex. 2009.
[TDS+01] F.E. Theunissen, S.V. David, N.C. Singh, A. Hsu, W.E. Vinje e J.L. Gallant. Es-timating spatio-temporal receptive fields of auditory and visual neurons from theirresponses to natural stimuli. Network: Computation in Neural Systems, 12(3):289–316, 2001.
[TDT81] DJ Tolhurst, AF Dean e ID Thompson. Preferred direction of movement as an elementin the organization of cat visual cortex. Experimental Brain Research, 44(3):340–342,1981.
20