mayte suárez fariñas o modelo de redes neurais globais-locais · rnas, é a mistura de...

59
Mayte Suárez Fariñas O Modelo de Redes Neurais Globais-Locais Tese de Doutorado Tese apresentada como requisito parcial para obtenção do título de Doutor pelo Programa de Pós- Graduação em Engenharia Elétrica da PUC-Rio. Orientadores: Carlos E. Pedreira Reinaldo Castro Souza Rio de Janeiro, fevereiro de 2003

Upload: others

Post on 05-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Mayte Suárez Fariñas

O Modelo de Redes Neurais Globais-Locais

Tese de Doutorado

Tese apresentada como requisito parcial para obtenção do título de Doutor pelo Programa de Pós-Graduação em Engenharia Elétrica da PUC-Rio.

Orientadores: Carlos E. Pedreira Reinaldo Castro Souza

Rio de Janeiro, fevereiro de 2003

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Ficha Catalografica CDD: 621.3

Suárez Fariñas, Mayte O modelo de redes neurais globais-locais / Mayte Suárez Fariñas; orientadores: Carlos E. Pedreira, Reinaldo Castro Souza. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2003. [11], 48 f. : il. ; 30 cm Tese (doutorado) – Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. 1. Engenharia elétrica – Teses. 2. Redes neurais globais locais. 3. Redes neurais. 4. Modelos não-lineares. 5. Séries temporais. 6. Identificabilidade. 7. Estimação de parâmetros. 8. Consistência. 9. Mistura de especialistas. I. Pedreira, Carlos E. II. Souza, Reinaldo Castro. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. IV. Título.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Mayte Suárez Fariñas

O Modelo de Redes Neurais Globais-Locais

Tese apresentada como requisito parcial para obtenção do título de Doutor pelo Programa de Pós-Graduação em Engenharia Elétrica da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assinada.

Carlos E. Pedreira Orientador

PUC-Rio / DEE

Reinaldo Castro Souza Orientador

PUC-Rio / DEE

Alexandre Pinto Alves da Silva UFRJ / COPPE

Renato Flores EPGE

Marcelo Medeiros PUC-Rio / Economia

Alvaro Veiga PUC-Rio / DEE

Carlos Kubrusly PUC-Rio / DEE

Ney Dumont Coordenador(a) Setorial do Centro Técnico Científico - PUC-Rio

Rio de Janeiro, 7 de fevereiro de 2003

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

“Caminante no hay camino, se hace camino al andar

golpe a golpe, verso a verso...”

Antonio Machado

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

A mi abuela China ....

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Agradecimentos

Quero agradecer ao professor Carlos E. Pedreira pela orientação desta tese. Ao

professor Marcelo Medeiros pelas inúmeras e valiosas sugestões. Ao Dr. Mauricio

Romero, do IMPA, pela ajuda e cuidadosa revisão das demonstrações

matemáticas. A Dra. Mariela Sued pelas enriquecedoras discussões técnicas. A

Elma Trevisan, Aubin Arroyo e José Koiller pelo seu trabalho na revisão do texto.

Agradeço também ao CNPq pelo suporte financeiro e a cidade de Rio de Janeiro,

por me oferecer um berço belo e hospitaleiro para o desenvolvimento deste

trabalho.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Resumo

Suárez Fariñas, Mayte, Carlos E. Pedreira, Reinaldo Castro Souza (orientadores). O Modelo de Redes Neurais Globais-Locais. Rio de Janeiro, 2003. 59p. Tese de Doutorado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.

Nesta tese apresenta-se o Modelo de Redes Neurais Globais-Locais (RNGL)

dentro do contexto de modelos de séries temporais. Esta formulação abrange

alguns modelos não-lineares já existentes e admite também o enfoque de Mistura

de Especialistas. Dedica-se especial atenção ao caso de especialistas lineares, e

são discutidos extensivamente aspectos teóricos do modelo: condições de

estacionariedade, identificabilidade do modelo, existência, consistência e

normalidade assintótica dos estimadores dos parâmetros. Considera-se também

uma estratégia de construção do modelo e são discutidos os procedimentos

numéricos de estimação, apresentando uma solução para o cálculo de valores

iniciais. Finalmente, ilustra-se a metodologia apresentada em duas séries

temporais reais, amplamente utilizada na literatura de modelos não lineares.

Palavras-chave Redes Neurais Globais Locais, Redes Neurais, modelos não-lineares, séries

temporais, identificabilidade, estimação de parâmetros, consistência, mistura de

especialistas,

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Abstract

Suárez Fariñas, Mayte, Carlos E. Pedreira, Reinaldo Castro Souza (orientadores). The Linear Local-Global Neural Network Model.. Rio de Janeiro, 2003. 59p. Tese de Doutorado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.

In this thesis, the Local Global Neural Networks model is proposed within

the context of time series models. This formulation encompasses some already

existing nonlinear models and also admits the Mixture of Experts approach. We

place emphasis on the linear expert case and extensively discuss the theoretical

aspects of the model: stationary conditions, existence, consistency and asymptotic

normality of the parameter estimates, and model identifiability. A model building

strategy is also considered and the whole procedure is illustrated with two real

time-series.

Keywords Local Global Neural Networks, Neural Networks, nonlinear models, time-

series, model identifiability, parameter estimation, mixture of experts.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Sumário

LISTA DE ILUSTRAÇÕES..........................................................................................................X

LISTA DE TABELAS.................................................................................................................. XI

INTRODUÇÃO .............................................................................................................................12

1 O MODELO DE REDES NEURAIS GLOBAIS LOCAIS................................................16 1.1 FORMULAÇÃO DO MODELO..............................................................................................16 1.2 INTERPRETAÇÃO GEOMÉTRICA.........................................................................................20

2 PROPRIEDADES ESTATÍSTICAS DOS ESTIMADORES DO MODELO ..................23 2.1 EXISTÊNCIA DO ESTIMADOR .............................................................................................24 2.2 IDENTIFICABILIDADE DO MODELO ...................................................................................25 2.3 CONSISTÊNCIA FORTE DOS ESTIMADORES ........................................................................29 2.4 NORMALIDADE ASSINTÓTICA ...........................................................................................30 2.5 SOBRE A ESTACIONARIEDADE DO MODELO.......................................................................31

3 PROCEDIMENTOS DE ESTIMAÇÃO E SELEÇÃO DO MODELO............................34 3.1 VEROSSIMILHANÇA CONCENTRADA .................................................................................34

Esquema iterativo de estimação. .............................................................................................35 3.2 VALORES INICIAIS ............................................................................................................35

3.2.1 Procedimento para busca da Solução Inicial. .........................................................36 3.3 CONSTRUÇÃO DO MODELO ..............................................................................................37

3.3.1 Seleção de Variáveis................................................................................................38 3.3.2 Determinação do número de pares-neurônio. .........................................................39

4 RESULTADOS NUMÉRICOS ............................................................................................41 4.1 SÉRIE DE LINCES CANADENSES........................................................................................41 4.2 SÉRIE DE MANCHAS SOLARES..........................................................................................42

5 PROVAS DOS TEOREMAS ENUNCIADOS....................................................................45 5.1 PROVA DO TEOREMA 1. ....................................................................................................45 5.2 LEMA 1.............................................................................................................................45 5.3 LEMA 2.............................................................................................................................48 5.4 PROVA DO TEOREMA 2.....................................................................................................49 5.5 PROVA DO TEOREMA 3.....................................................................................................51 5.6 PROVA DO TEOREMA 4.....................................................................................................53

CONCLUSÕES .............................................................................................................................55

REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................56

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Lista de Ilustrações

FIGURA 1.1 – EXEMPLOS DE FUNÇÕES DE NÍVEL DE ATIVAÇÃO D=6; H(1)=-2; H(2)=2 O D=2; H(1)=0; H(2)=4 .......................................................................................................................................17

FIGURA 1.2 – A ARQUITETURA PROPOSTA........................................................................................18 FIGURA 1.3 – ARQUITETURA DOS COEFICIENTES DO MODELO HIERÁRQUICO ...................................19 FIGURA 1.4– HIPERPLANO................................................................................................................20 FIGURA 1.5 – PARTIÇÃO DO ESPAÇO DE ENTRADA............................................................................21 FIGURA 2.1 – EXEMPLO 1. A) SÉRIE GERADA. B) YT-1 VS FUNÇÃO DE NÍVEL DE ATIVAÇÃO. C)

FUNÇÃO DE AUTOCORRELAÇÃO PARCIAL. D) HISTOGRAMA DA SÉRIE. ....................................32 FIGURA 2.2 – EXEMPLO 3. SÉRIES GERADAS. A) δ=0. B)δ=10-10. ......................................................33 FIGURA 4.1-AJUSTE DA SÉRIE SUNSPOT E PREVISÃO 1-PASSO-À-FRENTE..........................................43

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Lista de Tabelas

TABELA 4.1– PREVISÕES UM PASSO À FRENTE E ESTATÍSTICAS DE ERROS PARA A SÉRIE SUNSPOT NO PERÍODO 1980-1998. ................................................................................................................44

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

Introdução

Ao longo dos anos, têm sido desenvolvidas e estudadas muitas ferramentas

para modelagem e previsão de séries temporais. Entre os modelos que receberam

maior atenção da comunidade científica estão os modelos estatísticos lineares para

o tratamento de dados estacionários, homocedásticos e Gaussianos (Box, Jenkins

e Reinsel, 1994). Esta popularidade é devida principalmente a algumas de suas

características: fácil interpretação física, análise no domínio da freqüência, cálculo

de intervalos de confiança, e resultados assintóticos. Entretanto, evidentemente,

quando se trabalha com séries de natureza intrinsecamente não-linear, fenômenos

tais como ciclos-limite, assimetria e caos não podem ser captados de forma

satisfatória por modelos lineares.

Os últimos anos tem sido testemunha de um grande desenvolvimento dos

modelos não lineares para séries temporais (Tong, 1990; Granger e Teräsvirta,

1993). Entre eles, os modelos não paramétricos, onde não são feitas suposições

sobre a forma paramétrica da relação funcional entre as variáveis a ser modelada

têm sido extensamente aplicada, devido aos avanços computacionais. Para

algumas referências de modelos não paramétricos de séries temporais ver Härdle

(1990), Härdle et al. (1997), e Heiler (1999).

Uma outra classe de modelos, de formulação funcional mais flexível,

oferece uma alternativa onde de fato, a forma funcional da relação entre as

variáveis permanece ainda parcialmente não especificada. Como estes modelos

contem parâmetros, muitas vezes um grande número deles, é freqüente que o

modelo não seja globalmente identificável. A identificabilidade, se conseguida, é

local no melhor dos casos sem impor restrições nos parâmetros. Geralmente, os

parâmetros também não são interpretáveis como o são nos modelos paramétricos.

O modelo de Redes Neurais Artificiais (RNA) é um exemplo proeminente de

formas funcionais flexíveis. Este modelo encontrou aplicações em um grande

número de áreas, incluindo economia, finanças, energia, epidemiologia, etc. O

amplo uso dos modelos de RNA tem como motivação um resultado matemático

que garante que, sob certas condições de regularidade, um modelo de Redes

Neurais relativamente simples es capaz de aproximar qualquer função Borel

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

13

mensurável para qualquer grado de precisão desejada (Funahashi, 1989; Cybenko,

1989; Hornik et al, 1989,1990; White, 1990; Gallant e White, 1992)

Um outro exemplo de um modelo de formulação flexível, derivado das

RNAs, é a mistura de especialistas. A idéia, baseada na máxima "dividir e

conquistar", de misturar especialistas para realizar mapeamento complexo de

funções foi primeiramente discutida por Jacobs et al(1991). A idéia é foi proposta

por Jacobs et al. (1991). A motivação para o desenvolvimento deste modelo

encontra-se em Nowlan (1990), onde se aborda a adaptação competitiva no

aprendizado não supervisionado como uma tentativa de ajustar uma mistura de

distribuições de probabilidades a um conjunto de pontos. Estas idéias evoluíram

em Jacobs (1990) que usa uma arquitetura modular similar, mas com uma função

de custo diferente. Veja também Jordão e Jacobs (1994). Weigend et al(1995)

mostram uma aplicação desta abordagem na previsão de séries temporais.

Nesta tese propõe-se um novo modelo não-linear, baseado em RNA,

nomeado Redes Neurais Locais Globais. A idéia central do modelo RNGL é

expressar o mapeamento entrada-saída através de uma combinação de funções,

cada uma delas adequada a uma região do domínio. A estrutura básica é

constituída pela combinação de vários pares, cada um deles composto de uma

função de aproximação e uma função de nível de ativação. As funções de nível de

ativação definem, em cada região do domínio, a participação da função de

aproximação correspondente. É possível a ocorrência de superposições parciais

das funções de nível de ativação proporcionando uma maior riqueza do

mapeamento pretendido. Desse modo, o problema de aproximação de funções é

tratado especializando grupos de neurônios, formados pelos pares anteriormente

descritos, que emulam a função geradora em cada setor do domínio. O grau de

especialização em uma determinada região é dado pelo valor da função de nível

de ativação. Por exemplo, em um intervalo onde apenas uma das funções de nível

de ativação tem valor alto, haverá uma dominância da função de aproximação

associada a esta.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

14

As primeiras idéias do modelo de Redes Neurais Globais Locais, publicadas

em Pedreira et al(2001) e Fariñas e Pedreira (2001a) e Farinas e Pedreira (2002)

surgem ao abordar o problema de aproximação funcional e interpolação no

domínio real. Sob esta abordagem apresenta-se uma nova arquitetura

conexionista, capaz de reconstruir uma função a partir de estimativas locais ao

longo do domínio de interesse, por meio de uma arquitetura não usual, baseada no

particionamento do domínio da função a ser emulada. Nestes primeiros artigos

foram apresentados resultados teóricos que sustentam o uso deste modelo na

aproximação de funções reais. Em Fariñas e Pedreira (2001a) estuda-se

numericamente o comportamento desta metodologia na aproximação de funções

utilizando dados simulados e comparando seu desempenho com outros métodos

reportados na literatura, que utilizam Redes Multicamadas (MLP) e funções de

bases radiais (RBF).

Sobre esta base, nesta tese estendeu-se o modelo, formulando-o como um

modelo não linear para séries temporais. Esta formulação abrange alguns modelos

não-lineares já existentes e pode ser interpretado como um modelo de Mistura de

Especialistas. Presta-se especial atenção ao caso de especialistas linear, desta vez

denominado o modelo de Redes Neurais Globais-Locais Lineares (RNGL2).

Discutem-se extensamente aspectos teóricos do modelo, a saber: identificabilidade

do modelo; existência, consistência e normalidade assintótica dos estimadores. A

estratégia de construção do modelo é proposta, seguindo as idéias apresentadas

em Medeiros e Veiga (2002). Também são discutidos os procedimentos

numéricos de estimação e apresenta-se uma solução para o cálculo de valores

iniciais. Ilustra-se o procedimento completo modelando as séries clássicas de

Linces Canadenses e Manchas Solares. Estas séries, de natureza não-linear

conhecida, têm sido modeladas por vários autores (Chen,1995; Tong,1990). Os

resultados obtidos no ajuste via RNGL serão comparados finalmente com o

desempenho de outros modelos não lineares.

As principais contribuições desta tese são:

1) Apresenta-se um novo modelo não-linear para a modelagem de séries

temporais.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

15

2) São discutidos rigorosamente os aspectos teóricos do modelo e formalmente

provados os seguintes teoremas:

a) Teorema de existência do estimador de mínimos quadrados.

b) Estudo das condições para a identificabilidade do modelo.

c) Teorema de identificabilidade do modelo RNGL2.

d) Teorema de consistência dos estimadores de mínimos quadrados.

e) Teorema de normalidade assintótica dos estimadores de mínimos

quadrados.

No Capítulo 1 o modelo RNGL é formulado, estabelecendo as hipóteses

necessárias e discutindo aspectos relativos a interpretação geométrica. O Capitulo

2 é dedicado a discutir os aspectos teóricos do modelo. Com o intuito de facilitar a

leitura do texto, as provas dos teoremas enunciados ao longo deste capítulo, são

apresentadas em um Capítulo a parte (Capítulo 5). No Capitulo 3 são descritos os

procedimentos utilizados na estimação de parâmetros assim como a estratégia de

seleção do modelo. Os resultados obtidos no ajuste de series reais a traves do

modelo proposto são apresentados no Capítulo 4.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

16

1 O Modelo de Redes Neurais Globais Locais

Neste capítulo, formula-se o modelo geral de Redes Neurais Globais no

contexto de um processo estocástico. Esta formulação abriga alguns modelos não

lineares já existentes e admite o enfoque do Problema de Mistura de Especialistas.

Ao abordar o caso de especialistas lineares, discutem-se extensamente aspectos

teóricos do modelo, a saber: existência, consistência e normalidade assintótica dos

estimadores, identificabilidade do modelo, procedimentos de estimação e valores

iniciais. Neste sentido, enunciam-se e provam-se os teoremas relativos a

existência e consistência dos estimadores e são estabelecidas as condições que

garantem a identificabilidade do modelo.

1.1 Formulação do Modelo

O modelo de Redes Neurais Locais Globais (RNGL) descreve o processo

estocástico {yt t=1,2,...n}, yt∈ℜ, através do seguinte modelo não linear:

Ttt ,...,1,),G(y *tt =+= εψx (1.1)

xt∈ℜq é o vetor com os valores defasados de yt e/ou variáveis explicativas, ψ* é o

vetor (verdadeiro) de parâmetros do modelo e {εt} são erros do modelo,

considerados independentes e identicamente distribuídos com média zero e

variância σ2<∞.

A função G(x,ψ) é uma função não linear do vetor xt, com vetor de

parâmetros ψ pertencentes um subespaço compacto Ψ do espaço Euclidiano, e

está definida por:

∑=

=m

1BtiLti ),()B,(L),G(

iψxψxψx (1.2)

onde ψ=(ψL΄, ψB΄)΄, ψL=[ψL1΄,...,ψLm΄]΄, ψB=[ψB1΄,...,ψBm΄]΄ e as funções

Bi(xt, ψBi):ℜq→ℜ e Li(xt, ψLi):ℜq→ℜ chamadas de funções de nível de ativação

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

17

e funções de aproximação respectivamente. As funções Bi, funções de nível de

ativação são definidas pela expressão:

−><+−

−><+−=

))β,(γexp(11

))β,(γexp(11 )ψ,(B

(2)iii

(1)iii

itt

Bt xdxdx

, i=1, . . . ,m

(1.3)

onde ψB=[γ1, ..., γm, d11,...,d1q,....,dm1,...,dmq, β1(1),...,βm

(1), β1(2),...,βm

(2)]΄,<·,·> denota o

produto escalar no espaço Euclidiano e γi∈ℜ, di∈ℜq, βi(1)∈ℜ, βi

(2)∈ℜ. A forma

funcional das funções de nível de ativação determina uma região de ativação

determinada pelos parâmetros d e β Consideremos A Figura 1.1 ilustra o gráfico

desta função para dois conjuntos diferentes de parâmetros considerando x∈ℜ.

Nota-se que o parâmetro γ está relacionado à declividade desta função entanto que

os parâmetros β(1), β(2) delimitam a região do domínio em que a j-ésima função de

aproximação é mais ativa.

Figura 1.1 – Exemplos de funções de nível de ativação d=6; h(1)=-2; h(2)=2 o d=2; h(1)=0; h(2)=4

Observe-se que, devido à existência das γi na expressão (1.3), pode-se

considerar, sem perda de generalidade que ||di||=1. O conjunto completo de

suposições sobre o modelo será discutido na seção 5.

Embora uma ampla classe de funções de aproximação pode, ser

inicialmente considerada, dedicaremos especial atenção ao caso das funções de

aproximação lineares em x, isto é: Li(x)=ai΄x+bi, com ai∈ℜq, bi∈ℜ. neste caso, o

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

18

modelo pode ser chamado de Modelo de Redes Neurais Globais-Locais Linear

(RNGL2), onde:

∑=

++′=m

1tBtiit ),()Bb(),G(

ii εψxxaψx (1.4)

ψLi=[ai1,...,aiq,bi]΄ e ψ∈ℜ2m(2+q) e o processo estocástico yt consiste em uma

mistura de processos lineares. Aqui consideramos que a seqüência de erros εt

segue uma distribuição normal. Esta suposição pode ser relaxada, e substituída

pela condição ( ) ∞<∆≤+δε 2tE algum δ>0, como veremos mais adiante.

Esta arquitetura, proposta primeiramente por Pedreira et al(2001, 2001a)

para o problema de aproximação de funções L2 integráveis no caso univariado,

pode ser representada através do diagrama ilustrado na Figura 1.2 .

+x

G⊗

B1

B2

Bm

...

Lm

L2

L1

Figura 1.2 – A arquitetura proposta

Observe-se que a camada escondida é formada por m pares de neurônios.

Cada par de neurônios está composto da unidade de ativação, representada pela

função B; e da unidade de aproximação, correspondentes à função L.

A seleção das variáveis de entrada e dos parâmetros da função de nível de

ativação leva a alguns casos particulares que merecem ser comentados. Se

consideramos o caso xt=t, o modelo RNGL modela uma série temporal como

função do tempo. Neste caso, o modelo dividirá o intervalo de tempo em m

subintervalos, onde em cada um deles o modelo será localmente linear. A função

de nível de ativação indica o intervalo onde é válida cada representação linear, e a

suavidade da transição de um modelo a outro está determinada pelo parâmetro de

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

19

declividade γ. Se γ→∞, a função B tende à função indicadora do intervalo

[β(1),β(2)]. Neste caso, o modelo converte-se no modelo linear por partes. Se, ainda

sob esta perspectiva, são consideradas aproximações constantes (Li=bi) ao invés

de lineares, obtém-se o modelo com m quebras estruturais. Esta tem sido uma

alternativa muito popular em econometria, desde que foi introduzida por Chow

(1960) e Quandt (1960). Esta interpretação referida o modelo linear por partes é

também válida no caso em que se trata com dados seccionais.

No caso de maior interesse, onde as funções de aproximação são lineares, o

modelo RNGL2 pode ser interpretado como um modelo linear com coeficientes

variáveis no tempo:

tttt zy ε+φ′= (1.5)

onde φt=(φt(0),φt

(1),..., φt(q))′ é o vetor q-dimensional de coeficientes reais e

zt=(1,xt′)′ o vetor de variáveis de entrada. A evolução dos coeficientes φt(j) é dada

por:

=

==φ

=

=

q,...,2,1j)ψ,(Ba

0jψ,(Bb

iBt

m

1iij

iBt

m

1ii

(j)t

x

x

(1.6)

onde aij e bi são coeficientes reais e ψBi contem os parâmetros da função de nível

de ativação associada ao neurônio i, isto é ψBi=(γi,di1,...,diq,βi(1),βi

(2))΄. De fato, os

coeficientes do modelo podem ser interpretados como os coeficientes de uma rede

neural não usual, cuja arquitetura é ilustrada na Figura 1.3.

xt(1)

xt(q)

Bm

B1

...

φt(0)

φt(1)

φt(q)

linear

Figura 1.3 – Arquitetura dos coeficientes do modelo hierárquico

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

20

Note-se que, nesta abordagem, os coeficientes do modelo estão descritos

pela soma de constantes multiplicadas pela função de nível de ativação. Assim,

dentro de cada região de ativação, o coeficiente φt(j) será igual à constante

correspondente, permitindo uma transição suave de uma região a outra. Isto

significa que se tem um modelo fixo dentro de cada região e que este muda

suavemente de uma região a outra em dependência do parâmetro γ. A esta

interpretação, de caráter geométrico, será dedicada a seção seguinte:

1.2 Interpretação geométrica

Nesta seção discute-se a interpretação geométrica da camada oculta formada

pelos pares-neurônios. Seja x∈Γ, onde Γ é um espaço vetorial com produto

interno denotado por <⋅,⋅>. Considere-se a saída B(x,ψB) da "unidade de ativação”

de um par-neurônio da camada escondida da rede neural definida nas equações

(1.1)-(1.3). Os parâmetros d, β(1) e β(2) definem dois hiperplanos paralelos no

espaço vetorial q-dimensional.

{ }(1)q1 β,H >=<ℜ∈= xdx e { }(2)q

2 β,H >=<ℜ∈= xdx (1.7)

A posição de cada hiperplano está determinada pelo vetor de direção d, que

será ortogonal aos vetores que estão sobre o hiperplano, como mostra a Figura

1.4. O escalar β determina a distância do hiperplano até a origem.

Figura 1.4– Hiperplano

x2

-1 0 1 2 3 4-1

0

1

2

3

d

β||d||

x2

-1 0 1 2 3 4-1

0

1

2

3

x2

-1 0 1 2 3 4-1

0

1

2

3

-1 0 1 2 3 4-1

0

1

2

3

dd

β||d||β

||d||

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

21

Como um hiperplano tem infinitos vetores de direção (vetores ortogonais ao

hiperplano), a restrição ||d||=1 reduz esta multiplicidade, sem perda de

generalidade para o modelo.

Assim, os hiperplanos H1 e H2 são paralelos devido ao fato de terem o

mesmo vetor de direção, e dividem o espaço q-dimensional em três regiões

diferentes: H−,Ho, H+ definidos como:

{ }(1)β,H <ℜ∈=− xdx q

{ }(2)(1)o β,eβ,H ≤≥ℜ∈= xdxdx q (1.8)

{ }(2)β,H >ℜ∈=+ xdx q

A Figura 1.5 ilustra a situação em discussão. A região Ho representa o

estado ativo do par-neurônio e as regiões H− e H+ representam o estado inativo. O

estado ativo ou não de par-neurônio é representado pela função de nível de

ativação B(xt,ψB). O parâmetro γ determina a inclinação da função de nível de

ativação caracterizando a suavidade da transição de um estado a outro. Assim, o

caso limite γ→∞, representa uma transição abrupta de um estado a outro.

Figura 1.5 – Partição do espaço de entrada.

Quando se têm m neurônios, existem m pares de hiperplanos e, portanto

existirão m regiões fechadas e não limitadas do tipo Ho que podem interceptar-se

ou não. Assim, o espaço de entrada q dimensional, ficará dividido em várias

regiões “poliédricas”. Se nem todos os hiperplanos são paralelos, isto é, se ∃ i,j,

i≠j tal que di≠dj, a região formada pela interseção dos hiperplanos, Oj

Oi

Oij HHH I= ,

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

22

é uma região não vazia e representa a região onde os pares de neurônios i e j estão

ambos ativos. Se todos os di‘s têm alguma componente igual a zero, os

hiperplanos serão paralelos a algum dos planos coordenados, e o espaço ficará

dividido em regiões retangulares. Neste caso tem-se uma situação equivalente a

quando x∈ℜ (q=1), em que forçosamente os di são paralelos, situação que e

discutida em detalhe em Pedreira et al (2001), Farinas e Pedreira (2002), onde se

apresentam as primeiras idéias do modelo RNGL.

Como já foi comentado anteriormente, quando se analisava o modelo RNGL

sob um enfoque de modelo com coeficientes variantes, dentro de cada uma das

regiões Hio, i=1,...,m, os coeficientes φt

(j) do modelo descrito em (1.5) permanecem

constantes e o coeficiente γ permite uma transição suave de um modelo numa

região a outro modelo na região adjacente. Nas regiões de interseção, do tipo O12H ,

onde os pares de neurônios i e j estão ambos ativos, tem-se a mistura de dois ou

mais modelos. Se, di=d ∀ i isto é, se todos os vetores de direção são iguais,

teríamos m regiões paralelas do tipo Ho. Sob a condição (1)1i

(2)i ββ +< a interseção

destas regiões é vazia. O modelo RNGL2 pode então ser interpretado como um

modelo linear por partes com transição suave entre os regimes. Uma revisão

detalhada dos modelos de troca de regimes para séries temporais pode ser

encontrada em Van Dijk et al (2002).

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

23

2 Propriedades estatísticas dos estimadores do modelo

Na literatura atual, encontram-se disponíveis um grande numero de

algoritmos para estimação dos parâmetros de modelos baseados em Redes

Neurais. No modelo proposto, a estimação dos parâmetros agrupados no vetor ψ

será realizada via máxima verossimilhança, considerando as suposições feitas

sobre εt. A utilização do método de máxima verossimilhança permite ter uma

idéia da incerteza nos parâmetros estimados através do desvio padrão (assintótico)

dos estimadores. No entanto, é conhecido que a estimação de uma rede neural (ou

modelo não linear) através de máxima verossimilhança pode conduzir a

problemas de convergência e que, penalizar a função log verossimilhança é uma

precondição necessária para obter resultados satisfatórios.

Dois argumentos devem ser ditos em favor ad utilização do método de

máxima verossimilhança. Primeiramente, a estimação de modelos não

identificáveis verossimilhança pode ser parcialmente evitada se utilizada uma

estratégia na definição do modelo que proceda de modelos mais simples aos mais

complexos. Em segundo lugar, os valores iniciais para a estimação dos parâmetros

são escolhidos cuidadosamente, detalhe que será abordado mais amplamente em

seções seguintes.

O modelo RNGL2 é similar a muitos modelos lineares e não lineares para

séries temporais nos quais a matriz de informação da função log verossimilhança

é uma matriz diagonal por blocos de tal forma que podemos concentrar a

verossimilhança e estimar primeiramente os parâmetros associados à media

condicional. Sob a suposição de normalidade dos erros no modelo 1-3, o

estimador MQO e o estimador de máxima verossimilhança de ψ coincidem.

Assim, no modelo RNGL2 definido pelas equações (1.1)-(1.3). O estimador

de Mínimos Quadrados (EMQ) é o vetor ψ̂ solução do problema )ψ(Qmin n , onde

2t

n

1ttt

1n )),(Gy(n)ψ(Q ψx∑

=

− −= é a função de erro quadrático médio (EQM).

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

24

Este estimador enquadra-se na classe de M-estimator considerada por

Pötscher e Prucha (1986) assim como a considerada por Wooldridge (1994).

A seguir serão discutidas as circunstâncias que garantem a existência,

consistência e normalidade assintótica do EMQ. Também serão discutidas as

condições suficientes sobre as quais o modelo RNGL2 é identificável.

2.1 Existência do estimador

A demonstração de existência baseia-se no lema 2 de Jennrich (1969), que

estabelece que sob certas condições de continuidade e mensurabilidade da função

de erro quadrático médio, o estimador de mínimos quadrados existe.

Teorema 1: O modelo RNGL satisfaz as seguintes condições e o EMQ

existe:

i) Para cada x∈χ, a função Gx(ψ)=G(x,ψ) é contínua num subconjunto

compacto Ψ do espaço euclidiano.

ii) Para cada ψ∈Ψ, a função Gψ(x)=G(x,ψ) é mensurável no espaço χ.

iii) et são erros independentes e identicamente distribuídos com média zero e

variância σ2<∞.

Para estender o conjunto de funções de aproximação além das funções

lineares, deve-se garantir que sejam satisfeitas as condições i e ii. Assim, a classe

de funções Li(.) a considerar, deve ser um subconjunto das funções continuas

sobre o compacto Ψ e mensuráveis em x. Note também que a hipótese de

normalidade dos erros não foi utilizada, bastando a suposição de que os erros são

iid, com média zero e variância finita.

A hipótese de compacidade do espaço dos parâmetros pode parecer um

pouco restritiva. Huber (1967) apresenta resultados que requerem espaços apenas

localmente compactos, e uma extensão desse caso pode ser aplicada para obter os

resultados presentes. No entanto, a suposição de compacidade é teoricamente

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

25

conveniente, e é ainda suficientemente geral para aplicar em qualquer situação na

qual o procedimento de otimização seja levado a cabo em computador.

O lema enunciado permite interpretar o modelo de RNGL como uma

aproximação semiparamétrica de qualquer função Borel mensurável. Entretanto,

deve-se assinalar o fato de que o modelo (1.1)) é em princípio não identificável,

global ou localmente. As condições que garantirão a identificabilidade do modelo

serão discutidas na seção seguinte.

2.2 Identificabilidade do Modelo

O problema fundamental para a inferência estatística nos modelos não

lineares é a não identificabilidade dos parâmetros do modelo. Para garantir a

identificabilidade única sobre a função de erro quadrático médio (EQM) devem

ser estudadas as fontes que provocam a não unicidade no modelo. Estas questões

são detalhadamente examinadas em Sussmann (1992), Kůrková e Kaine (1994),

Hwan e Djin (1997), Trapletti et al(2000) e Medeiros et al(2002) no caso de

Redes Neurais feedfoward. Aqui, serão discutidos brevemente os conceitos e

resultados principais. Em particular, serão estabelecidas e provadas as condições

que garantem que o modelo proposto seja identificável é minimal.

Antes de abordar a identificabilidade do modelo, serão discutidos dois

conceitos relacionados: o conceito de minimalidade do modelo, estabelecido em

Sussman (1992) e ao qual se refere Hwang e Ding (1997) como não redundância;

e o conceito de irredutibilidade do modelo.

Definição 1: Um modelo M é minimal (ou não redundante), se não existe

outra rede com menos neurônios que representa o mesmo mapeamento que o

modelo M.

Outra fonte de não unicidade vem do fato da presença de unidades

irrelevantes no modelo. Isto significa que o modelo pode então ser reduzido,

eliminando algumas unidades sem afetar a relação funcional entrada-saída. Assim,

a condição de minimalidade só é possível quando trabalhamos com modelos

irredutíveis.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

26

Definição 2: Seja ],,[ )(ll iiii βγθ d= e ( )ll

liiiti x βγθϕ −><= ,),( dx . O

modelo M é redutível se uma das três condições se satisfazem:

a. Algum dos pares (ai,bi) se anula conjuntamente para algum i.

b. γi=0 para algum i.

c. Existem índices i ≠j tal que os funcionais )x(e)x( jill ϕϕ sejam

equivalentes em sinal (isto é, se para todo x∈ℜq, |)(||)(| ji xx ll ϕ=ϕ )

Definição 3: O modelo M é identificável se não existem dois conjuntos de

parâmetros, tais que as correspondentes distribuições de y sejam idênticas.

No caso do modelo RNGL2 a condição de identificabilidade diz respeito à

função G. Note que, inicialmente, nenhuma Rede Neural é identificável. Quatro

propriedades do modelo RNGL2, causam a não identificabilidade dos modelos:

(P.1) A propriedade de intercambiabilidade dos pares-neurônios da camada

oculta: o valor da função da verossimilhança do modelo não se altera ao se

permutarem os pares de neurônios da camada oculta. Isto resulta em m! modelos

diferentes que são indistintos entre si. Como conseqüência, na estimação dos

parâmetros, tem-se m! máximos locais iguais para a função log verossimilhança.

(P.2) A simetria da função B: o fato de que a função de nível de ativação B

satisfaça que B(x,γ,d,β1,β2) = B(x,γ,d,β2,β1), estabelece outra indeterminação no

modelo, pois ter-se-ão 2m parametrizações equivalentes.

(P.3) O fato de que F(-ϕ)=1-F(ϕ) onde F é a função )e1(1 ϕ+ Por esta razão,

devem ser estudadas todas as combinações de (γ,d,β) que ofereçam sinal oposto

para ϕ (ϕ=γ(<d,x>-β) ) nos levaram a uma indeterminação no modelo. Estas são:

B(x,γ,d,β1,β2) = -B(x,-γ,d,β1,β2) e B(x,γ,d,β1,β2) = -B(x,γ,-d,-β2,-β1)

(P.4) A presença de pares irrelevantes no modelo. As condições (a) e (b) na

definição de redutibilidade dizem respeito à presença de pares de unidades

irrelevantes, que se traduzem em fontes de identificabilidade. Se o modelo contém

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

27

algum par, tal que Li=0 (ai =0 e bi=0), os parâmetros di e 2i

1i β,β di permanecem não

identificados. Inversamente, se γi=0, então os parâmetros 2i

1i β,β e os associados à

função Li (ai e bi no caso linear) podem tomar qualquer valor sem afetar o valor da

função log verossimilhança. Ainda mais, se (2)i

(1)i ββ = , γi, ai e bi permanecem não

identificados.

As propriedades (P.2)-(P.3) estão relacionadas com o conceito de

reducibilidade. No mesmo espírito dos resultados estabelecidos no Teorema 2.1

de Sussman (1992) e o Teorema 2.3a Hwang e Ding (1997) para Redes Neurais

feed forward e certas funções de ativação, será mostrado que, se o modelo RNGL2

é irreduzível, (P.1) são as únicas formas de modificar os parâmetros sem

modificar a distribuição de Y. Logo, estabelecendo restrições sobre o modelo que

simultaneamente evitem a reducibilidade e a permutação de unidades da camada

oculta, pode-se reduzir o espaço de valores do parâmetro, garantindo a

identificabilidade do modelo:

O problema de intercambiabilidade (Propriedade (P.1)) pode ser evitado

quando se impõe ao modelo a restrição:

(R1): (1)1i

(1)i ββ +< e )2(

1i)2(

i +β<β para i=1,2,...,m.,

As conseqüências devidas à simetria da função de nível de ativação

(Propriedade (P.2)) pode ser resolvida, ao se considerar:

(R2): (2)i

(1)i ββ < para i=1,2,...,m.

Para eliminar a identificabilidade causadas pelas propriedades (P.3) devem

ser impostas duas restrições adicionais:

(R3) γi>0, i=1,..,m

(R4) di>0, i=1,..,m

A primeira dela evita que uma simples mudança de sinal nos parâmetro γ

conduz a problemas de identificação no modelo. Por outro lado, na interpretação

geométrica discutida, vimos que a restrição ||d||=1, restringe esta multiplicidade

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

28

no vetor de direção do hiperplano. No entanto ainda temos uma ambivalência

produzida pelo fato de que os vetores d, e –d tem a mesma norma e são ambos

ortogonais ao hiperplano. A restrição (R4) evita este problema. Considerando que

d é um vetor unitário, (R4) converte-se em: 0d1dq

2j

2iji1 >−= ∑

=

.

A presença de pares–neurônios irrelevantes, propriedade (P.4) pode ser

contornada aplicando uma estratégia de construção do modelo do tipo especifico-

a-geral, como o sugerido na seção 3.3.

Os teoremas 2.1 de Sussman (1992) e 2.4 de Hwang e Ding (1997)) têm

como conseqüência importante que, para certas funções de ativação, a

identificabilidade do modelo implica a sua minimalidade. Basicamente, os

corolários 2.1 de Sussman (1992) e 2.4 de Hwang e Ding (1997) garantem que um

modelo irredutível é mínimo. O fato de que a irredutibilidade e a minimalidade

sejam equivalentes significa que não existem mecanismos, fora os listados na

definição de redutibilidade, que possam ser utilizados para reduzir o número de

unidades sem mudar a relação funcional de entrada-saída.

Logo as restrições (R.1)-(R.4) impostas ao modelo, garantem que, se não

existem unidades irrelevantes o modelo é identificável e minimal.

No entanto, ainda outra condição deve ser estudada. Os teoremas

comentados são válidos se a função de nível de ativação satisfaz a condição que

diz respeito a independência de certa família de funções (Vide condição B de

Hwang e Ding, 1997). Para as funções de ativação logística, tangente e

gaussianas, esta condição já foi estabelecida (Kůrková e Kaine,1994;

Sussman,1994; Hwang e Ding, 1997). No presente caso, devemos então

comprovar que suposições devem ser feitas para que os resultados se mantenham.

Antes de enunciar o Teorema que estabelece as condições suficientes sob as

quais o modelo RNGL2 é globalmente identificável, algumas suposições devem

ser feitas.

Hipótese 1. Os parâmetros (ai,bi) não se anulam conjuntamente para algum

i=1,..m. Adicionalmente γi=0 ∀i e )2()1(ii ββ ≠ ∀i.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

29

Esta Hipótese garante que não existem unidades irrelevantes como descrito

na propriedade (P.4).

Teorema 2

Sob a Hipótese 1 e as restrições:

(R1): (1)1i

(1)i ββ +< e )2(

1i)2(

i +β<β para i=1,2,...,m;

(R2): (2)i

(1)i ββ < , i=1,2,...,m;

(R3) γi>0, i=1,..,m;

(R4) 0d1dq

2j

2iji1 >−= ∑

=

, i=1,..,m

o modelo RNGL2 é globalmente identificável.

2.3 Consistência forte dos estimadores

Em White (1981) e White e Domowitz (1984) se estabelecem as suposições

principais para garantir a convergência forte dos estimadores de mínimos

quadráticos do problema. No contexto de séries temporais as condições que

garantem a consistência (quase segura) são estabelecidas em White (1994) e

Wooldridge (1994), sob a base de um processo estacionário. A continuação

enuncia-se e prova-se o Teorema da consistência dos estimadores do modelo de

RNGL2.

Hipótese 2: O processo gerador de dados (PGD) para a seqüência de

observações escalares {yt}t=1,...T é um processo RNGL2 ergódigo com vetor de

parâmetros (verdadeiro) ψ*∈Ψ. O espaço paramétrico Ψ é um subespaço

compacto de ℜr onde r =2m(2+q).

Teorema 3

Sob as restrições (R.1)-(R.4) e as Hipóteses 1 e 2, o estimador de mínimos

quadrados (EMQ) é quase seguramente consistente.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

30

2.4 Normalidade assintótica

Nesta seção estabelecem-se duas condições necessárias para garantir a

normalidade assintótica do EMQ.

Hipótese 3: O valor verdadeiro do vetor de parâmetros, ψ*, é ponto interior

de Ψ.

Hipótese 4: A família de funções { } { } { }) ,B() ,B( BB ψψ tttt xxxx UU

{ } { }) ,B() ,B( BB ψψ ttt xxx ∇∇ UU onde xt ∈ℜ e ϕℓ(xt, θiℓ)=(bixt-γiβi(ℓ)), bi>0, β1<β2

i=1,...,m; ℓ=1,2 e ϕℓ(xt, θiℓ) são não equivalentes em sinal, é linearmente

independente.

Teorema 4

Sob as restrições (R.1)-(R.4) e as Hipóteses 1-4,

( ) ),(ˆ)( ** I0NTQ2

1 d21

T2

2→ψ−ψ

ψ∇σ

onde [ ] )(,)()( *2*2*2 ψψψ TTT QQEQ ∇∇=∇ é a matriz Hessiana de QT(ψ) em ψ* e σ2 é

a variância de εt

Na demonstração da consistência dos estimadores, considerou-se como

hipótese que se trabalha com um processo ergódigo. Esta suposição é necessária

desde que utilizar os resultados de Pötscher e Prucha (1986) para provar que a lei

forte dos grandes números é satisfeita. Esta suposição poderia ser parcialmente

relaxada se utilizarmos os resultados de Wooldridge (1994) onde são

estabelecidas as condições de consistência e normalidade assintótica para os M-

estimadores, utilzando a lei uniformemente fraca dos grandes números (uniform

weak law of large numbers (UWLLN)).

Por outro lado, a condição de normalidade sobre os erros do modelo, iid,

pode ser relaxada na prova da consistência e normalidade assintótica dos

estimadores, sendo necessária apenas supor que os erros são iid com média zero,

variância finita e tal que ( ) ∞<∆≤+δε 2tE para algum δ>0.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

31

2.5 Sobre a estacionariedade do modelo.

Enquanto as condições de estacionariedad assintótica do modelo proposto,

alguns comentários devem ser realizados. Em se tratando de modelos não lineares

para séries temporais, a obtenção de condições necessárias e suficientes para a

estacionariedade não é, em geral, tarefa fácil. Este é também o caso do modelo

RNGL2. Uma possibilidade é utilizar o fato de que o modelo RNGL2 pode ser

interpretado como um modelo que tem como coeficientes funções autorregresivas

(functional coefficient autoregressive (FAR) model) se xt=[yt-1,...,yt-p]’, e aplicar

os resultados obtidos em Chen e Tsay (1993). No entanto, as restrições obtidas

por esta via, são extremamente restritivas. Simulações realizadas apontam que

modelos com coeficientes autorregresivos altamente explosivos podem ser

estacionários, dependendo da relação dos coeficientes autorregresivos e o vetor de

direção dos hiperplanos. No entanto condições formais e mais gerais que

garantam a estacionariedade do modelo estão atualmente sob estudo.

A seguir, ilustra-se, através de simulação, o comportamento de dois modelos

RNGL2. O exemplo 1 mostra um processo RNGL2 estacionário que é

combinações de modelos autorregresivos explosivos. Para ilustrar a dependência

nos elementos do vetor di, i=1,...,m, o exemplo 2 mostra um modelo onde

d2=[1,0]’.

Exemplo 1. 1000 observações do seguinte modelo RNGL2:

ttt

t

ttt

ε+

−+

−++

++

−+

−++

=

−−−

−−−

))2y(10(exp11

))2y(10(exp11)y0.8(0.5

))1y(10(exp11

))6y(10(exp11)y1.5-(-0.5y

111

111t

onde εt~NID(0,1). O modelo anterior é uma mistura de dois processos

autorregresivos, um explosivo e o outro estacionário. A figura 2.5 ilustra a série

temporal gerada, as funções de nível de ativação, o autocorrelograma das séries e

o histograma dos dados. Pode-se observar que, inclusive com um regime

explosivo, a série é estacionária. No entanto, a distribuição dos dados é altamente

assimétrica e existem algumas evidencias de bimodalidade.

Exemplo 2. 3000 observações do seguinte modelo RNGL2.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

32

t

tttttt

tttttt

εδδ

+

−++

−+++

−+

−+

−++

+=

−−−−−−

−−−−−−

)40yy(1.5(exp11

)2yy(1.5(exp11)y2.1y1.9-(0.5

)10y0.7-y(0.7exp11

)10y0.7-y(0.7exp11)y2.5y2.2-(-0.5y

212121

212121t

onde εt~NID(0,1) e δ=0, 10-10. A Figura 2.7 ilustra a série temporal gerada. Como

pode ser observado, o processo é explosivo quando δ=0 mais é assintóticamente

estacionário quando δ=10-10.

(a)

(b)

(c)

(d)

Figura 2.1 – Exemplo 1. a) Série Gerada. b) yt-1 vs função de nível de ativação. c) Função de autocorrelação parcial. D) Histograma da série.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

33

(a)

(b)

Figura 2.2 – Exemplo 3. Séries geradas. a) δ=0. b)δ=10-10.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

34

3 Procedimentos de Estimação e Seleção do Modelo.

A estimação dos parâmetros não é, numericamente, um problema simples.

Em geral os algoritmos de otimização são muito sensíveis à escolha dos valores

iniciais dos parâmetros. O emprego de algoritmos tais como Broyden-Fletcher-

Goldfarb-Shanno ou Levenberg-Marquard é fortemente recomendado (ver

Bertsekas, 1995) (para detalhes sobre estes algoritmos). Outra questão importante

que deve ser comentada é a seleção do procedimento de busca linear que se efetua

para selecionar o tamanho do passo no algoritmo do gradiente descendente.

Usualmente, a interpolação cúbica ou quadrática resulta uma boa escolha. .

3.1 Verossimilhança concentrada

A máxima verossimilhança concentrada foi proposta por Leybourne,

Nwebold e Vougas (1998) com o objetivo de reduzir consideravelmente a

dimensionalidade do problema de estimação iterativo. E em vez de uma inversão

de uma matriz Hessiana , se invertem duas matrizes menores e o procedimento de

busca linear só se utiliza para obter a i-éssima estimativa de ψB

Se L(x,ψL) é uma função linear nos parâmetros então: LL ψψx x),L( l′= . No

caso de L(x) ser uma reta: Onde ψL=[a,b] e )'1,(x x=l . Se denotamos

( )BixB

i B),(B ψψx = e faz-se a substituição na expressão de G(.), ter-se-á:

( ) iL

m

1i

ix

tix .)(B),G( ψψψx B∑

=

= l

e o modelo (1.1)-(1.3) pode ser escrito como um modelo linear em termos do

parâmetro ψL.

ε)(Zy LBx += ψψ

onde o vetor ψLt=(ψL

1, ψL2,..., ψL m), ψB=(γ1,..., γm, d11,...,d1q,....,dm1,...,dmq, β1

1,...,

βm1) e Zx é uma matriz de a n×m:

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

35

ψψψ

ψψψψψψ

)(B)(B)(B

)(B)(B)(B)(B)(B)(B

)(Z

Bmx

mxB

2x

2xB

1x

1x

Bmx

mxB

2x

2xB

1x

1x

Bmx

mxB

2x

2xB

1x

1x

Bx

nnnnnn

222222

111111

lLll

MM

lLll

lLll

Se assumirmos ψB fixo (condicionado na estimativa do parâmetroψB), o

vetor de parâmetros ψL pode ser estimado analiticamente como:

( ) y)Z()Z()Z(ˆ )E( tB

1tB

tBLBL ψψψψψψ −

== (3.1)

e variância:

( ) 21B

tBLBL )Z()Z(ˆ )V( σ

−=Σ= ψψψψ (3.2)

onde σ2 é a variância assumida para os erros.

Os restantes parâmetros ψB podem então ser estimados condicionados ao

valor de ψL, aplicando o algoritmo de Levenquard –Marquard (L-M) para

completar a i-éssima iteração. O esquema iterativo de estimação é resumido a

seguir.

Esquema iterativo de estimação.

Valores iniciais: )0(B

)0(L ˆ,ˆ ψψ , i=1

Repetir

Calcular )E( )1(BL

(i)L

−= iψψψ segundo (3.1);

Utilizar L-M para achar ( ))'','(Qminargψ B(i)L

(i)B B

ψψψ= s.a (R1-R4);

i=i+1;

Até Convergência.

3.2 Valores Iniciais

Os algoritmos iterativos de otimização são freqüentemente muito sensíveis a

eleição dos valores inicias e certamente também e o caso do modelo RNGL2

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

36

Em Pedreira et al (2001) e Fariñas e Pedreira (2002) propõe-se uma

heurística para procurar uma solução inicial para o procedimento de estimação.

Dita heurística baseia-se na interpretação geométrica do modelo no caso real,

onde os valores β1,β2 estão relacionados aos intervalos onde a função mantém a

monotonia. Medeiros et al(2001a) propõe um procedimento para calcular os

valores iniciais do modelo AR-NN. Este procedimento também é utilizado na

estimação dos parâmetros do modelo NCSTAR (Medeiros e Veiga, 2000). Neste

caso apresenta-se uma modificação deste procedimento para o caso presente.

Assumindo que já foi estimado um modelo RNGL2 com m-1 pares

neurônios, deseja-se estimar um modelo com m pares-neurônios. Assim uma

escolha natural para os valores iniciais dos estimadores dos parâmetros consiste

em utilizar a estimativa final obtida na etapa anterior de modelagem para os

primeiros m-1 pares-neuronios. Os valores iniciais para os parâmetros do m-

éssimo par-neurônio é obtido através do seguinte procedimento:

3.2.1 Procedimento para busca da Solução Inicial.

Passo 1.

Para k=1,…,K:

1. Construir o vetores [ ]′= (k)qm

(k)1m

(k)m v,...,vv tal que ],( 10v(k)

1m ∈ e

q2,...,j,1,1][ve (k)1jm =−∈ . Para isto seleciona-se (k)

1mv e q2,...,j,v(k)1jm = a

partir uma amostra aleatória da distribuição uniforme U(0,1) e U(-1,1)

respectivamente.

2. Definir 1(k)

m(k)m

(k)m

−= vvd .

3. Calcular as projeções dos x’s sobre o vetor (k)md :

]x,...,[xonde,, n1(k)m

(k)m == xxdp .

4. Seja )p(c2),p(c1 (k)m3/2

(k)m

(k)m3/1

(k)m ZZ == , onde Zα é o percentil de

nível α.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

37

5. Calcular ), (k)m

(k)m b(a a través da regressão dos x∈{x: p(x)∈[c1m

(k), m(k)]

sobre os y’s

Passo 2: Definir N valores positivos (j)mγ , j=1,…,N para os parâmetros de

suavidade. Estes valores não precisam ser escolhidos aleatoriamente. Como

as mudanças nos γ tem um efeito pequeno na declividade quando γ é grande,

só se requer um numero pequeno de valores altos. Assim a malha de valores

de γ deve ser mais fina para os valores pequenos.

Passo3: Para k=1,…,K e j=1,…,N, calcular o valor Ln(ψ) para cada

combinação de valores inicias. Selecionar como valores iniciais aqueles que

maximizam a função logaritmo da verossimilhança concentrada ou

equivalentemente o EQM.

Depois de selecionar os valores iniciais do m-éssimo par de neurônios,

reordenam-se as unidades se é necessário para garantir que as hipóteses de

identificação do modelo sejam satisfeitas. Os autores assinalam que tipicamente,

K=1000 e N=20 oferecem bons estimadores dos parâmetros sendo que K é uma

função não decrescente da quantidade de variáveis de entrada γ.

Nesta seção discutiram-se aspectos relacionados com a estimação dos

parâmetros, indicando o algoritmo de estimação a utilizar e apresentando um

procedimento para a inicialização do algoritmo de otimização. A seguir se discute

uma estratégia de modelagem que permita estabelecer as variáveis de entrada, e a

arquitetura do modelo proposto.

3.3 Construção do Modelo

Nesta seção, propõe-se uma estratégia “específico-à-geral” para a

especificação do modelo.

Dois problemas na especificação do modelo RNGL2 requerem especial

atenção. O primeiro deles é a seleção das variáveis explicativas contidas em xt,. A

seleção correta deste subconjunto de variáveis constitui um ponto importante

desde que a seleção de um subconjunto demasiado pequeno conduz a uma má

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

38

especificação do modelo enquanto escolher demasiadas variáveis agrava a

maldição de dimensionalidade. O segundo problema é a seleção do número

correto de pares-neurônio. O procedimento de especificação pode ser visto como

uma seqüência que consiste nas seguintes etapas:

(1) Seleção dos elementos de xt.

(2) Determinação do número de pares-neurônio.

(3) Validação do modelo estimado.

As primeiras duas etapas do ciclo de modelagem serão discutidas em

detalhe. A validação escapa um pouco do escopo deste trabalho. Entretanto, os

resultados em Medeiros e Veiga (to appear), e Medeiros et al. (2002) podem

facilmente ser generalizados ao modelo RNGL2.

3.3.1 Seleção de Variáveis.

Como já foi comentado, a primeira etapa na especificação do modelo é

escolher as variáveis dentre um conjunto de variáveis potenciais. Embora existam

diversas técnicas não paramétricas de seleção de variáveis (Tcherning e Yang,

2000; Vieu, 1995; Tjøstheim e Auestad, 1994; Yao e Tong, 1994; Auestad e

Tjøstheim, 1990), elas tem uma grande demanda computacional, em particular

quando o número de observações não é pequeno. Nesta tese, a seleção de

variáveis realiza-se linearizando previamente o modelo; e aplicando à

aproximação obtida, as técnicas conhecidas de seleção de variáveis no modelo

linear. Isto minimiza o custo computacional. Com esta finalidade, adota-se um

procedimento simples proposto em Rech et al. (2001). A idéia é aproximar o

modelo não-linear estacionário por um polinômio de ordem suficientemente

elevada. Adaptado à situação atual, a primeira etapa é aproximar a função G(xt;ψ)

por um polinômio de ordem k. Pelo Teorema de Stone-Weierstrass, o erro da

aproximação pode ser arbitrariamente pequeno para k suficientemente grande se

algumas condições gerais, tais como a compacidade do espaço dos parâmetro

forem impostas à função G(xt;ψ). Assim o modelo RNGL2 é aproximado por uma

outra função.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

39

ψ),R(

)(G

ttjtj

q

1j

q

1jjjj

tjtj

q

1j

q

jjjjtt

k1

1 kk

k1

21

1 12

21

x

xx

+θ++

θ+π′=ψ

∑ ∑

∑∑

= −=

= =

,,...

,,

x...x

xx~,

L

(3.3)

onde [ ]′′= tt xx ,1~ e R(xt;ψ) é o erro da aproximação. 0s θ’s são parâmetros, e

π∈ℜq+1 é um vetor de parâmetros. A forma linear da aproximação é independente

do número de pares-neurônio no modelo. Na equação (3.3), cada produto de

variáveis envolvendo ao menos uma variável redundante tem coeficiente zero.

Utilizando esta propriedade de (3.3), podem ser eliminadas as variáveis

redundantes do modelo. Para fazer isto primeiramente efetua-se a regressão de yt

em todas as variáveis da parte direita de (3.3) assumindo R(xt;ψ) =0, calculando o

valor do critério de seleção modelo (CSM), por exemplo AIC (Akaike, 1974) ou

SBIC (Schwarz, 1978). Seguidamente, eliminam-se uma variável do modelo

original e efetuamos a regressão de yt nos termos restantes do polinômio

correspondente e calculamos outra vez o valor do CSM. Este procedimento é

repetido omitindo uma variável cada vez. Continua-se omitindo dois regressores

do modelo original e prossegue-se dessa maneira até que o polinômio seja função

de um único regressor e, finalmente, apenas uma constante.

Fazendo isso, escolhe-se a combinação de variáveis que oferece o valor

mais baixo do CSM. Isto significa estimar 1iqq

1i

+

∑=

modelos lineares através de

MQO. Note que seguindo este procedimento, as variáveis para o modelo RNGL2

são selecionadas ao mesmo tempo. Rech et al. (2001) mostraram o bom

desempenho deste procedimento inclusive em amostras pequenas quando

comparado às técnicas não-paramétricas. Além disso, pode ser aplicado com

sucesso em amostras grandes onde a seleção do modelo por técnicas não-

paramétricas se torna computacionalmente infatível.

3.3.2 Determinação do número de pares-neurônio.

Em aplicações reais, o número de pares-neurônio é desconhecido e deve ser

estimado baseado nas observações. Pruning é, na literatura de Redes Neurais, um

dos métodos mais populares para seleção de número de neurônios do modelo.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

40

Nele, se estima primeiramente um modelo com um grande número de neurônios e

subseqüentemente, se reduz o tamanho do modelo aplicando uma técnica

apropriada tal como crossvalidation. Outra técnica muito utilizada é a

regularização que pode ser caracterizada como máxima verossimilhança

penalizada aplicados na estimação de um modelo de Redes Neurais. Para uma

discussão detalhada veja, por exemplo, Fine (1999, pp. 215-221). A regularização

bayesiana pode servir como exemplo (MacKay, 1992a; MacKay, 1992b).

Uma outra possibilidade é utilizar um CSM para determinar o número de

pares-neurônio na camada oculta. Swanson e White (1995), Swanson e White

(1997a), e Swanson e White (1997b) aplicam o critério de seleção modelo de

SBIC como segue: Eles começam com um modelo linear, adicionando as

variáveis potenciais até que o CSM indique que o modelo não pode mais ser

melhorado. Então eles estimam modelos com um único neurônio e adicionam-lhe

regressores seqüencialmente, um por um, a menos que o SBIC não mostre

nenhuma melhoria adicional. Em seguida, os autores adicionam uma outra

unidade escondida e prosseguem adicionando variáveis a ela. O processo de

seleção termina quando o CSM indica que não devem ser adicionadas mais

unidades escondidas ou variáveis ou quando alcançar um número máximo de

unidades escondidas, predeterminado.

Neste trabalho adota-se uma estratégia similar à descrita acima. Após

selecionar as variáveis explicativas através do procedimento descrito na seção

anterior, estima-se com um modelo de um único par-neurônio e calcula-se o

SBIC. Continua-se a adicionar pares-neurônio até que o SBIC não indique

nenhuma melhoria adicional. O SBIC é definido como:

[ ],lnˆln q)2m(2T(T))((h)SBIC 2 +×+σ= (3.4)

onde σ2 é a variância residual estimada. Isto significa que para selecionar um

modelo com um par-neurônio, é necessário estimar m+1 modelos.

Uma outra maneira de determinar o número de pares-neurônio é seguir a

proposta de Medeiros e Veiga (2000a) e Medeiros et al. (2002) e usar uma

seqüência de testes LM. No entanto, isto vai além do escopo deste trabalho.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

41

4 Resultados Numéricos

Neste capítulo, são apresentados os resultados numéricos para o modelo

RNGL2 utilizando séries reais. O primeiro exemplo considera só o ajuste do

modelo enquanto o segundo mostra o desempenho na previsão 1 passo à frente.

Na seleção do modelo é utilizado a estratégia de modelagem descrito na seção 3.3.

4.1 Série de Linces Canadenses

A primeira série de dados a ser analisada é o logaritmo em base 10 do

número de Linces Canadenses (Canadian Lynx) caçados no distrito Mackenzie

River do Noroeste no período 1821–1934. Para maiores detalhes e historia ver

Capítulo 7 de Tong (1990). Esta série foi analisada por Ozaki (1982), Tsay

(1989), Tong (1990), Teräsvirta (1994), e Xia e Li (1999). Considerando estes

resultados, foram selecionada as variáveis explicativas do modelo entre os 7

primeiros valores defasados (lags) da série temporal.

Com o procedimento descrito na seção 3.3 e utilizando o SBIC,

identificamos os lags 1 e 2 utilizando o SBIC e os lags 1,2,3,5,6,7 com o SBIC.

Continuamos com a construção do modelo RNGL2 com somente lags 1 e 2 por ser

mais parcimonioso. O SBIC indica como melhor modelo, aquele com dois pares-

neurônios (m=2). O modelo final pode ser escrito como:

( ) ( )( )

( ) ( )( )

t

2t1t

2t1t2t1t

2t1t

2t1t2t1tt

ε8110y9800.18y820

,18170y9800.18y820B5.3y1321.77y

910y5700.82y27,2311y5700.82y27

B21y802.24yy

ˆ...

....

......

..

+

−+×−+×

×+−+

+

+−×+−×

×+−=

−−

−−−−

−−

−−−−

=σεˆ 0,2041 =σσε Lˆˆ 0,876, R2=0,8673

onde Lˆˆ σσε é a razão entre o desvio padrão dos resíduos do modelo RNGL2 e os

resíduos de um AR(2) e R2 é o coeficiente de determinação. O valor do desvio

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

42

padrão dos resíduos ( =σεˆ 0,2041) é menor que os obtidos por outros modelos

utilizando só os dois primeiros valores defasados como variáveis explicativas. Por

exemplo, o modelo não-linear proposto por Tong (1990, p. 410) apresenta desvio

padrão dos resíduos igual a 0.222; o modelo Exponencial Autorregresivo

(EXPAR) proposto por Ozaki (1982) tem 0,2080. Teräsvirta (1994) encontrou

melhores resultados (0.187), mas incluindo variáveis até o lag 11. Com o RNGL2

foram obtidos valores próximos a este considerando só os primeiros 4 lags.

4.2 Série de Manchas Solares

Nesta seção ilustramos o modelo RNGL2 num exemplo real. Neste exemplo

considera-se a série de número de manchas solares no período entre 1700-1998,

obtidas do National Geophysical Data Center (web page: www.ngdc.noaa.gov).

As observações para o período 1700-1979 foram utilizadas para a estimação do

modelo e as restantes observações foram utilizadas para avaliar as previsões.

Adotamos aqui a mesma transformação utilizada em Tong

(1990), [ ]1)1(2y tt −+= N onde Nt é o número de manchas solares.

Esta série, conhecida na literatura como Sunspot é fortemente não-linear e

tem sido modelada por vários autores. MacKay (1992 a, b) utiliza uma rede neural

artificial (Modelo NN) com 5 neurônios e os primeiros 9 lags como entrada,

estimados com regularização bayesiana e também o modelo linear com lags

utilizando SBIC (Modelo AR). Dois modelos do tipo SETAR têm sido utilizados

na modelagem desta série, um reportado por Tong (1990) e outro por Chen

(1995). O modelo de Chen (1995) a variável treshold é uma função não linear dos

lags da série temporal enquanto Tong (1990) utiliza só um único lag.

Para começar a modelagem da série foi utilizada a estratégia de seleção de

variáveis discutida na seção 3.3.1, considerando uma aproximação de terceira

ordem para o modelo verdadeiro. Aplicando o critério SBIC, são selecionados os

lags 1,2,7 como variáveis explicativas (O AIC indica lags 1,2,4-10). No entanto,

os resíduos estimados são fortemente correlatados. Para eliminar esta correlação

serial se inclui yt-3 no conjunto de variáveis explicativas. Seguidamente,

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

43

determinou-se o número de pares neurônios seguindo a estratégia descrita na

seção 3.3.2. O modelo final, com m=2, pode ser escrito como:

( )( )( )

( )( )( )

t

7t3t2t1t

7t3t2t1t

7t3t2t1t

7t3t2t1t

7t3t2t1t

7t3t2t1tt

ε,5386y010y9400.22y0.24y1.94

,912y010y9400.22y0.24y1.94B

6710.38y0.14yy8000.67y-448y330y9400.04y0.09y0.31

,92.54y330y9400.04y0.09y0.31B

0.990.37y0.18y0.65y1.67yy

ˆ......

.....

..

+

−−++×−−++×

×

×+−−++

−+−+×++−+×

×

×−++−−=

−−−−

−−−−

−−−−

−−−−

−−−−

−−−−

Os valores para o desvio padrão dos erros estimados na etapa de treino foi

de foi de 1.7359. Este valor é melhor que os obtidos por outros modelos não

lineares. Por exemplo Xia e Li (1999) estimaram um modelo com εσ̂ =1.772;

Tong(1990) no seu modelo SETAR com dois regimes obtém εσ̂ =1.932. A

Figura 4.1 ilustra os resultados para a previsão 1 passo à frente no período de

1980-1998.

1750 1800 1850 1900 1950 20000

5

10

15

20

25

30Real Estimado

Figura 4.1-Ajuste da série Sunspot e previsão 1-passo-à-frente.

Para comparar desempenho out of sample do modelo estimado comparamos

as previsões do modelo RNGL2 com as obtidas através dos modelos não lineares

comentados anteriormente. A Figura 4.1 mostra as previsões 1 passo à frente para

cada modelo, os erros de previsão e as estatística de erro. A tabela mostra as

previsões para a série original Nt, obtidas a partir das previsões para a série

transformada yt. Os resultados mostram-se favoráveis ao modelo RNGL2 em

termos de previsão um passo-à-frente.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

44

Tabela 4.1– Previsões um passo à frente e estatísticas de erros para a série Sunspot no período 1980-1998.

Modelo RNGL2 RNA Modelo SETAR (Tong, 1990)

SETAR model (Chen, 1995)

Modelo AR

Ano Nt Forecast Error Forecast Error Forecast Error Forecast Error Forecast Error 1980 154,6 149.1 5.5 136.9 17.7 161.0 -6.4 134.3 20.3 159.8 -5.2 1981 140,4 131.1 9.3 130.5 9.9 135.7 4.7 125.4 15.0 123.3 17.1 1982 115,9 101.8 14.1 101.1 14.8 98.2 17.7 99.3 16.6 99.6 16.3 1983 66,6 81.2 -14.6 88.6 -22.0 76.1 -9.5 85.0 -18.4 78.9 -12.3 1984 45,9 42.7 3.2 45.8 0.1 35.7 10.2 41.3 4.7 33.9 12.0 1985 17,9 22.4 -4.5 29.5 -11.6 24.3 -6.4 29.8 -11.9 29.3 -11.4 1986 13,4 10.0 3.4 9.5 3.9 10.7 2.7 9.8 3.6 10.7 2.7 1987 29,4 19.4 10.0 25.2 4.2 20.1 9.3 16.5 12.9 23.0 6.4 1988 100,2 71.9 28.3 76.8 23.4 54.5 45.7 66.4 33.8 61.2 38.9 1989 157,6 160.7 -3.1 152.9 4.6 155.8 1.8 121.8 35.8 159.2 -1.6 1990 142,6 145.9 -3.3 147.3 -4.7 156.4 -13.8 152.5 -9.9 175.5 -32.9 1991 145,7 118.1 27.5 121.2 24.5 93.3 52.4 123.7 22.0 119.1 26.6 1992 94,3 101.8 -7.5 114.3 -20.0 110.5 -16.2 115.9 -21.7 118.9 -24.6 1993 54,6 69.3 -14.7 71.0 -16.4 67.9 -13.3 69.2 -14.6 57.9 -3.3 1994 29,9 29.8 0.1 32.9 -3.0 27.0 2.9 35.7 -5.8 29.9 -0.1 1995 17,5 14.0 3.5 19.2 -1.7 18.4 -0.9 18.9 -1.4 17.6 -0.1 1996 8,6 14.8 -6.2 10.2 -1.6 18.1 -9.5 11.6 -3.0 15.7 -7.1 1997 21,5 17.2 4.3 21.3 0.2 12.3 9.2 11.8 9.7 16.0 5.5 1998 64,3 63.9 0.4 67.6 -3.3 46.7 17.6 58.5 5.8 52.5 11.8

RMSE 11.7 13.8 18.7 16.9 16.5 MAE 8.6 11.2 13.1 14.0 12.4

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

45

5 Provas dos teoremas enunciados

5.1 Prova do Teorema 1.

A condição iii já foi assumida na definição do modelo. É fácil provar no

nosso caso que a função G(x,ψ) é contínua como função dos parâmetros ψ, uma

vez que tanto B(ψB) como as funções Li(ψL) lineares são contínuas como funções

de ψB e ψL para cada valor de x. Da mesma forma, pode-se concluir que a função

G(x,ψ) é continua em x, logo mensurável em χ, para cada valor do parâmetro ψ.

Logo as condições ii e iii são satisfeitas.

O lema 2 de Jennrich (1969) mostra que as suposições i-iii são suficientes

para garantir a existência (mensurável) do EMQ no modelo RNGL2. Neste caso, a

seqüência nψ̂ que converge a ψ são funções mensuráveis de y e x, isto é,

→χ )Y,(:ψ̂ ℜ. (ver comentários em White, 1981).

5.2 Lema 1

Lema 1. A classe de funciones { } { }(t))(t),tB((t))(t),B( 2121 ϕϕϕϕ U onde

ϕℓ(t)=(bt-γβ(ℓ)), ℓ=1,2; b>0 e β1<β2 onde ϕ são não equivalentes em sinal é

linearmente independente .

Prova:

Seja n inteiro positivo. Deve-se provar que, se existem escalares ai, ia~ , γi>0,

bi>0, βi(1)<βi

(2), i=1,2,...n; com (bi,γi,βi(1),βi

(2))≠(bj,γj,βj(1),βj

(2)) (por ser não

equivalentes em sinal) para i≠j tal que ∀t∈ℜ tem-se que:

∑=

=+n

1i

2i

1ii

2i

1ii 0(t))(t),B(ta~(t))(t),B(a ϕϕϕϕ (5.1)

então ai=ãi=0 i=1,...,k.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

46

Considerando o fato já apontado que B(ϕ1,ϕ2)=-[F(-ϕ1)-F(-ϕ2)], com F

função logit, a expressão (5.1) é equivalente a:

[ ] [ ]∑=

=ϕϕ+ϕϕn

1i

2i

1ii

2i

1ii 0(t)F(--(t))F(-ta~(t)F(--(t))F(-a (5.2)

Desenvolvendo a série de Taylor de F(-ϕℓi(t)), ℓ=1,2, tem-se:

tkbβk-

1k

k)(i

i)(

ii ee1)()(t)F(l

l γ∞

=∑ −=ϕ− (5.3)

Estas séries convergem absolutamente quando 1e )βγ-t(b (1)iii < e

1e )βγ-t(b (2)iii < ou seja para )bβγ(t i

(1)ii< . Logo existe M suficientemente pequeno

tal que (5.3) converge para todo t∈(-∞,M). Substituindo (5.3) em (5.4) e

escrevendo Ci(ℓ)=γiβi

(ℓ) obtém-se:

[ ] [ ]∑ ∑∑=

=

=

=−+−n

1i

tkbk)(C-k)(C-

1k

ki

tkbk)(C-k)(C-

1k

ki 0ete-e1)(a~ee-e1)(a i

2i

1ii

2i

1i (5.4)

Note que pela positividade de γi, satisfaz-se que Ci(1) < Ci

(2). Denotando ll i-C)(

i eW −= , ℓ=1,2, ainda Wi(1) < Wi

(2) e substituindo (5.2) em (5.4):

( ) ( ) ( ) ( )∑ ∑∑=

=

=

=

+

n

iiii1i

tkb

1k

kki

tkb

1k

kki 0eW-Wa~eW-Wa i)2()1(i)2()1(

que pode ser reordenada (por ser absolutamente convergente) e rescrita como:

∑∞

=

′′ =′′+′1h

tb h

tbh' 0ete hh αα

(5.5)

onde ,...,bb 21 <′<′ e cada ib′ são múltiplos inteiros de algum bj.

No entanto, pode-se provar que 0hh =′′=′ αα :

Dividindo (5.5) por tb1et ′ , obtém-se que:

∑∞

=

′′′′ =′′+′

1h

)b-bt(

h)b-bt(

h' 0t

ee1h

1h αα (5.6)

tomando o limite em (5.6) quando t→-∞ e considerando que 0bb 1h >′−′ para

h≠1, conclui-se que 01 =′α . Considerando a expressão (5.5) com 01 =′α e

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

47

dividindo agora por tb1e ′ obtém-se ∑∞

=

′′′′ =′′+′+′′2h

)b-bt(h

)b-bt(h'1' 0tee 1h1h ααα . Tomando

o limite quando t→-∞, os termos no somatório se anulam obtendo: 01 =′′α .

Repetindo sucessivamente este raciocínio chegaremos a 0hh =′′=′ αα como

queríamos provar.

Resta provar, a partir de 0hh =′′=′ αα , que ai=ãi=0. Como as expressões de ai e

ãi em termos de hh eαα ′′′ respectivamente são análogas, inclui-se a prova só para hα′ .

Seja io=1, Seja J={j∈{1,…,m}: bj=bio}. Deve-se provar que aj=ãj=0 ∀ j∈J

Para cada k∈IN, existe hk, tal que ok ih kb b =′ . Existe também um inteiro N>0

tal que para todo l e i≥io+1, (1+Nl)b1 não é um múltiplo inteiro de bi. Como para

cada hk se satisfaz que 0kh =′α , em particular para k=(1+Nl) temos:

( ) ( ) 0WWaJj

kj

kjjh

)2()1(

k=

−=′ ∑

α

ou seja:

( ) ( )∑∑∈∈

=Jj

kjj

Jj

kjj WaWa )2()1( (5.7)

se j∈J, então bj=bio e pela construção dos bi’s isto só acontece se ∀ j∈J ďj=ďio,

logo dj=dio e γj=γio. Como (bi,γi,βi(1),βi

(2))≠(bj,γj,βj(1),βj

(2)) então ,βi(1)≠βj

(1), βi(2)≠βj

(2)

os temos que obtendo que ∀ j,j’∈J j≠j’: )()(j'j WW ll ≠ ; e como βj

(1)<βj(2), então

)2()1(jj WW < ∀ j∈J.

Seja nJ o cardinal de J e φ:{1,…,nJ}→J uma reordenação de J tal que )2()2()2()1()1()1(

)(n(2)(1))(n(2)(1) JJW...WW,W...WW φφφφφφ <<<<<< e )2()1(

(i)(i) WW φφ < . Dividindo

(5.7) por )2()(nJ

Wφ e tomando limite quando k →∞ temos:

+=

∑∑−

==

1n

1j

k

)(n

(j)(j)k)(n

n

1j

k

)(n

(j)(j)k

J

J

J

J

J

)2(

)2(

)2(

)1(

WW

alimaWW

alim φ

φφφ

φ

φφ

e daqui chega-se a 0a )(nJ=

φ.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

48

Repetindo o mesmo procedimento sucessivamente, obtêm-se que

0a 1)-(nJ=φ , 0a (3) =φ ,…,. 0a (1) =φ

Tomando sucessivamente i=2,...,m com o respectivo conjunto J que define o

conjunto J e repetindo idêntico raciocínio conluie-se que ai=0 i=1,…m. E

analogamente ãi=0 i=1,…m, como se queria provar.

5.3 Lema 2

Lema 2. Seja {ďi}um conjunto de vetores em ℜq tal que di1 > 0 para todo i.

Seja V o vetor unitário que, segundo Hwang e Ding(1997) existe e satisfaz:

(i) <ďi,V> > 0

(ii) se ďi≠ďj então <ďi,V> ≠ <ďj,V>.

Então, existe uma base V1,..., Vq que satisfaz as mesmas condições.

Prova

Seja V0 o vetor unitário tal que para ďi distintos, as projeções sobre V0, bi =

<ďi,V> sejam também diferentes e positivas. Deve-se encontrar uma base V1,...,

Vq que satisfaça as mesmas condições.

Dado V0, definem-se os Vj’s como:

qq0q3303220201 eVV...,,eVV,eVV,VV ε−=ε−=ε−==

onde ej é o vetor canônico com 1 na posição j e zero caso contrário e εj é

suficientemente pequeno. Deve-se provar (1) que satisfazem as condições i e ii e

(2) que formam uma base do espaço. Para todo j, a projeção de di sobre Vj é bi =

<ďi,Vj> = <ďi,V0> + εjdij, onde os primeiros somando são sempre positivos e

diferentes quando os di’s são diferentes. Logo pode-se escolher εj suficientemente

pequeno tal que bi = <ďi,Vj> continue sendo positivo e bi continue sendo positivo

e diferente para di’s diferentes.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

49

Para mostrar que os q vetores assim definidos formam uma base é suficiente

mostrar que são linearmente independentes: Seja uma combinação arbitrária

destes vetores:

0eααV0)e-(VαVα0Vα jj

q

2jj

q

1jj0jj0

q

2jj01j

q

1jj =−⇒=+⇒= ∑∑∑∑

====

εε

de aqui que:

jj

q

2jj

q

1jj0 eααV ε∑∑

==

= (5.8)

escrevendo a igualdade anterior para a primeira componente de cada vetor e

levando em consideração que o membro esquerdo contém somas dos vetores

canônicos 2,3 até q, tem-se:

0eααV1

jj

q

2jj

1

q

1jj0 =

=

∑∑==

ε (5.9)

de onde 0αVq

1jj01 =∑

=

e como V01≠0 tem-se que 0αq

1jj =∑

=

.

Escrevendo (5.9) para a k-éssima componente (k=2,3...,q) tem-se que:

kkk

jj

q

2jj αeα0 εε =

= ∑

=

⇒ 0αk = , k=2,..,q.

e como 0αq

1jj =∑

=

, conclui-se que α1=0. Logo todos os αj’s são nulos e os {Vj}

são linearmente independentes; logo, eles formam uma base de ∈ℜq.

5.4 Prova do Teorema 2

Para mostrar identificabilidade, deve-se provar que, sob a Hipótese 1 e as

restrições (R.1)-(R.4) se existem duas parametrizações diferentes ψ,ψ~ tais que

∀xt∈ℜq

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

50

∑∑==

+=+n

itit

n

itit bb

1B

ti

1B

ti )~,)B(~~(),)B((

iiψψ xxaxxa

Então ii BBii

~,~,~ ψψ === ii bbaa , i=1,...,m

A equação anterior pode ser reescrita como:

( )∑=

=+n

jtt

1Bjj

tj 0),B()e ψ(xxc (5.10)

onde ),B(),B( BjBj ψψ tt xx =( para j=1,...,m; )~,B(),B( mBj-Bj ψψ tt xx =( para j=m+1,...,

2m; cj=aj para j=1,...,m; mjjc −−= a~ para j=m+1,...,2m; bj=ej para j=1,...,m;

mjj be −−=~ para j=m+1,..., 2m.

Observe que a expressão (5.10) é satisfeita ∀x∈ℜq o que dificulta o trabalho

algébrico. Assim primeiramente trata-se de reduzir a dimensão de x passando a

um espaço de dimensão 1, para depois utilizar o Lema 2.

Denotemos ďi=(γidi). Seja V o vetor unitário tal que para ďi distintos, as

projeções sobre V sejam também diferentes (Veja Teorema 2, de Hwang e Ding,

1997). Como existe um número finito de di, γi>0 e os di tem a primeira

componente positiva, é possível construir V tal que as projeções bi=<ďi,V> sejam

positivas. Note-se que V e di são vetores unitários, logo bi=γicos(α) onde γi>0 e α

é ângulo entre V e di. Logo H garante que é possível encontrar um vetor V tal que

o ángulo entre di e v seja positivo. A igualdade (5.10) é satisfeita ∀x∈ℜq, logo em

particular, para x que pertencem a reta que tem vetor de direção V; ou seja x=xV,

t∈ℜ. Logo )b(),()( )(iii

)(iii

lll βγβγϕ −=−><= xixdx e a equação (5.10) se

transforma em:

( )∑=

=+n

jtt xc

1Bjjj 0),B()e ψ(Vx (5.11)

onde >=< Vc ,jjc .

Para simplificar a notação, denotemos ϕj(ℓ)=γj(bjx-βj

(ℓ))=ϕ(xt,θjℓ), j=1,...,m. O

Lema 1 garante que, se )(1

ljϕ e )(

2

ljϕ são não-equivalentes em sinal,

j1,j2∈{1,...,2m}, que a classe de funções { } { }),B(),B( )2()1()2()1(jjjj x ϕϕϕϕ U é

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

51

linearmente independente. Isto é (5.11) se satisfaz, se e só se jc e ej se anulam

conjuntamente para cada j∈{1,..., 2m}.

No entanto da condição jc =0 não podemos concluir diretamente que os

cj=0. O Lema 1, mostra que na realidade não existe só um vetor V; é possível

provar que existe um conjunto de vetores V1,...,Vq que satisfazem as mesmas

condições que V e que formam uma base do ℜq. Como os Vj’ satisfazem as

mesmas condições de V, a prova do Lema 2 é ainda válida chegando a que para

cada i, o produto escalar >< ji , Vc =0, para cada Vj elemento da base vetorial, logo

cj=0.

No entanto a Hipótese 1 garante que não existem unidades irrelevantes no

modelo, logo )(1

ljϕ e )(

2

ljϕ são equivalentes em sinal. Mas as restrições (R.2)-(R.4)

não permitem que dois funções ϕj(ℓ)e ϕi

(ℓ) do mesmo modelo sejam equivalentes

em sinal. Conseqüentemente, existem j1,j2∈{1,...,2m}, tais que )(1

ljϕ e )(

2

ljϕ são

equivalentes em sinal. Sob as restrições (R.2)-(R.4) a única possibilidade é que

exista alguma permutação nos pares-neurônios da camada oculta, mas a restrição

(R.1) exclui esta possibilidade. Assim, o único casso onde (5.11) se satisfaz ∀ xt

∈ℜq é quando ii BBii

~,~,~ ψψ === ii bbaa , i=1,...,m

5.5 Prova do Teorema 3

Para a prova deste Teorema utiliza-se o Teorema 3.5 de White (1994),

provando que as hipóteses ali estabelecidas são satisfeitas.

As hipóteses 2.1 e 2.3, que se referem ao espaço de probabilidades e as

funções de densidade, são triviais. As hipóteses 3.1. a, b e, c se referem à função

E(log(f(xt,ψ)), que no nosso caso é igual a -E(q(xt,ψ)). Logo,

∫= ))dF(,q())ψ,q(( t xψxxE , onde q(xt,ψ)=(G(xt,ψ o)-G(xt,ψ)+et)2. A seguir se prova

que estas hipóteses são satisfeitas.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

52

Hipótese 3.1a: Para cada ψ, E(q(xt,ψ)) existe e é finita. t=1,...n

Como G(xt,ψ) é contínua como função de ψ no compacto, logo

uniformemente contínua, se satisfaz que sup(G(xt,ψo)-G(xt,ψ))=M<∞. Logo temos

que )()()(),()),(( 2 xxψxψx dFMdFqqE tt ε∫∫ +≤= . Utilizando o fato de que εt tem

média zero e variância σ2 e aplicando o Teorema 2, de Trapletti et al(2001),

garante-se que εt é k-integrável para qualquer k finito, logo E(q(xt,ψ))<∞.

Hipótese 3.1b: E(q(xt,ψ)) é contínua em Ψ. t=1,...n

Seja ψ→ψo, como para todo t G(xt,ψ) é contínua em ψ, logo para todo t,

q(xt,ψ)→q(xt,ψo) (convergência pontual). Da continuidade de G(.,ψ) sobre o

compacto Ψ, tem-se a continuidade uniforme e, seguindo raciocínio análogo ao

empregado na prova da hipótese 3.1a. chega-se a que q(xt,ψ) está dominada por

uma função integrável (dF). Logo, pelo Teorema da convergência dominada,

chegamos a que ∫∫ → )(dF),(q)(dF),(q o xψxxψx , logo E(q(xt,ψ)) é contínua.

Hipóteses 3.1c. E(q(xt,ψ)) obedece a lei forte dos grandes números (strong

ULLN).

O Lema A2 de Pötscher e Prucha (1986) garante que E(q(xt,ψ)) obedece a

lei forte dos grandes números. O conjunto de hipóteses b do dito lema são

satisfeitas: (1) trabalha-se com um processo estritamente estacionário e ergódico;

(2) da continuidade de E(q(xt,ψ)) mostrada no item b deste teorema (Hipótese

3.1b) e da compacidade de Ψ tem-se que supψE(q(xt,ψ)=E(q(xt,ψ o) para ψ o∈Ψ,

com a Hipótese 3.1a garante-se que E(q(xt,ψ o)) existe e é finita, concluindo-se

que supψE(q(xt,ψ))<∞.

Quanto às hipóteses 3.2, que se referem a identificabilidade única de ψo,

foram discutidas no Teorema 2.

Na demonstração da consistência dos estimadores, considerou-se como

hipótese que se trabalha com um processo ergódigo. Esta suposição e necessária

desde que utilizar os resultados de Pötscher e Prucha (1986) para provar que a lei

forte dos grandes números é satisfeita. Esta suposição poderia ser parcialmente

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

53

relaxada se utilizarmos os resultados de Wooldridge (1994) onde são

estabelecidas as condições de consistência e normalidade assintótica para os M-

estimadores, utilzando a lei uniformemente fraca dos grandes números (uniform

weak law of large numbers (UWLLN))

5.6 Prova do Teorema 4

Na prova de este Teorema utilizamos o Teorema 6.4 de White (1994), onde

condições gerais são estabelecidas para a normalidade assintótica de modelos não

lineares para séries temporais. A continuação comprova-se que as hipóteses de

dito Teorema são satisfeitas.

Hipóteses 2.1, 2.3, e 3.1 seguem da prova do Teorema 3(consistência).

Hipóteses 3.2’ e 3.6 seguem do fato de que G(xt; ) é continuamente

diferençiável ate ordem 2 no subespaço compacto Ψ.

Para checar as hipóteses 3.7a e 3.8a deve-se provar que [ ] ∞<∇ )(ψnQE e

que [ ] ∞<∇ )(2 ψnQE . No modelo RNGL2 o valor esperado do gradiente e a

Hessiana de Qn(ψ ) esta dada por:

[ ] ( )[ ]),(),(2)( ψψψ tttn xGyxGEQE −∇−=∇

e

[ ] ( )[ ]),(),(),(),(2)( 22 ψψψψψ tttttn xGyxGxGxGEQE −∇−∇′∇−=∇

respectivamente.

Hipóteses 3.7a e 3.8a seguem considerando a condição de normalidade

sobre os erros do modelo εt as propriedades da função G(xt; ψ), e o fato de

∇G(xt;ψ) e ∇2G(xt; ψ) conter termos ate ordem xi;txj;t, i,j=1,...,q. Seguindo o

mesmo raciocínio utilizado na prova da Hipótese 3.1a no Teorema 3, as hipóteses

3.7a e 3.8a são satisfeitas.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

54

Hipótese 3.8b: Considerando a Hipótese 3, o fato da função G(xt; ψ) ser

continua e a convergência dominada. Seguindo o mesmo raciocínio utilizado na

prova da Hipótese 3.1b no Teorema 3 a hipótese 3.8b é satisfeita .

Hipótese 3.8c: Esta hipótese e obtida diretamente da prova do Teorema 3 e a

Lei forte dos grandes números de Pötscher e Prucha (1986).

Hipótese 3.9: Escrevendo a matriz An* de White para nosso modelo:

[ ] [ ]),(),(2)( ***2* ψψψ ttn xGxGEQEA ∇′∇−=∇=

é um O(1) em nosso modelo. Considerando a Hipótese 4, as propriedades da

função G(xt; ψ), e a identificabilidade do modelo provada no Teorema 2, obtemos

a não singularidade de An*.

Hipótese 6.1: Utilizando o Teorema 2.4 de White e Domowitz (1984) pode-

se provar que a seqüência: 2ξ′∇G(xt; ψ*) segue o Teorema Central do Limite

(TCL) para algum vetor ξ, tal que ξ′ξ=1. Hipóteses A(i) e A(iii) de White e

Domowitz (1984) são satisfeitas desde que εt é NID. De fato somente é necessário

que ( ) ∞<∆≤+δε 2tE algum δ>0, logo a hipótese de normalidade não é

necessária. Por outra parte, a Hipótese A(ii) cumpre-se com

[ ]),(),(4 **2 ψψξσ tt xGxGE ∇′∇′ . Adicionalmente, como qualquer transformação

de um processo mixing (mixing process) é um processo mixing (ver Lemma 2.1 in

White e Domowitz (1984)), 2ξ′∇G(xt; ψ*) é uma seqüência fortemente mixing

(strong mixing) e satisfaz o TCL. Utilizando a forma de Cramér-Wold ∇Q(xt; ψ)

também obedece o TCL com matriz de covariâncias

[ ] *2**2* 2),(),(4 nttn AxGxGEB σψψξσ =∇′∇′= a qual e O(1) e não singular.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

55

Conclusões

Nesta tese foi apresentado um novo modelo não linear para séries temporais

baseado em Redes Neurais. O modelo, chamado de Redes Neurais Globais-Locais

Lineares (RNGL2) pode ser interpretado como um modelo de Mistura de

Especialistas Lineares. As propriedades estatísticas do modelo são discutidas em

detalhes, e foram enunciados e provados teoremas quanto a existência,

consistência e normalidade assintótica dos estimadores de mínimos quadrados e as

condições de identificabilidade do modelo. São discutidos também os

procedimentos de estimação, que utilizam o método da verossimilhança

concentrada para ganhar em eficiência computacional e também foi proposto um

procedimento para uma cuidadosa escolha dos valores inicias na estimação dos

parâmetros. Uma possível estratégia de modelagem para a seleção das variáveis

explicativas e a identificação do número de neurônios também foi discutida.

O desempenho do modelo RNGL2 na previsão de séries temporais foi

avaliado a través da modelagem de duas séries referencias na literatura de

modelos não lineares: a série de linces canadenses e a série de manchas solares.

Estas duas séries foram modeladas utilizando a estratégia de modelagem e os

procedimentos de estimação descritos nesta tese. Nestes exemplos o desempenho

do modelo proposto foi superior ao modelo linear e outras especificações não-

lineares, sugerindo que a teoria aqui desenvolvida e o modelo proposto poderia ser

uma ferramenta útil para os analistas de séries temporais.

As condições sob as quais o modelo proposto é estacionário (no sentido

assintótico) encontram-se atualmente sob estudo. E necessário ainda avaliar o

desempenho do modelo em um maior número de séries reais identificando as

dinâmicas que são modeladas com maior eficiência pelo RNGL2. Experimentos

com dados simulados são necessários para uma avaliação rigorosa da robustez do

processo de estimação. Uma extensão natural seria pesquisar as condições de

identificabilidade do modelo para especialistas não lineares e as condições para a

consistência e normalidade dos estimadores neste casso.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

56

Referências Bibliográficas

Abu-Mostafa, Y. S., Atiya, A. F., Magdon-Ismail, M. e White, H. (2001). “Introduction to the special issue on neural networks in financial engineering”, IEEE Transactions on Neural Networks 12: 653–655.

Akaike, H. (1974). “A new look at the statistical model identification”, IEEE Transactions on Automatic Control 19: 716–723.

Auestad, B. e Tjøstheim, D. (1990). “Identification of nonlinear time series: First order characterization and order determination”, Biometrika 77: 669–687.

Bertsekas, D. P.(1995). Nonlinear Programming, Athena Scientific, Belmont, MA.

Box,G.E.P., Jenkins, G.M. e Reinsel, G.(1994) Time series Analysis: Forecasting and Control. Third Edition Prentice Hall, 1994.

Chen, R. (1995). “Threshold variable selection in open-loop threshold autoregressive models”, Journal of Time Series Analysis 16(5): 461–481.

Chen, R. e Tsay, R. S. (1993). “Functional coefficient autoregressive models”, Journal of the American Statistical Association 88: 298–308.

Cybenko, G. (1989). “Approximation by superposition of sigmoidal functions”, Mathematics of Control, Signals, and Systems 2: 303–314.

Fariñas, M. e Pedreira, C.E(2001a). “Missing Data Interpolation By Using Local-Global Neural Networks” International Journal of Engineering Intelligent Systems. (No EIS 309).

Fariñas, M., Pedreira, C.E.(2001b). “Mistura de Especialistas em Redes Neurais Locais-Globais” in Proceeding of SBAI 2001, Canela, 2001

Fariñas, M. Pedreira, C.E.(2002) “New Neural-Network Based Approach for Function Approximation” Paper submitted to IEEE, Transaction on Neural Network.

Fine, T. L. (1999). Feedforward Neural Network Methodology, Springer, New York.

Funahashi, K. (1989). “On the approximate realization of continuous mappings by neural networks”, Neural Networks 2: 183–192.

Gallant, A. R. e White, H. (1992). “On learning the derivatives of an unknown mapping with multilayer feedforward networks”, Neural Networks 5: 129–138.

Granger, C. W. J. e Teräsvirta, T. (1993). Modelling Nonlinear Economic Relationships, Oxford University Press, Oxford.

Härdle, W. (1990). Applied Nonparametric Regression, Cambridge University Press, Cambridge.

Härdle, W., L¨utkepohl, H. e Chen, R. (1997). “A review of nonparametric time series analysis”, International Statistical Review 65: 49–72.

Haykin, S(1999). Neural Networks – A Comprehensive Foundation, 2nd. Edition, Prentice Hall, New Jersey.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

57

Hornik, K., Stinchombe, M. e White, H. (1989). “Multi-layer Feedforward networks are universal approximators”, Neural Networks 2: 359–366.

Hornik, K., Stinchombe, M. e White, H. (1990). “Universal approximation of an unknown mapping and its derivatives using multi-layer feedforward networks”, Neural Networks 3: 551–560.

Huber, P.J. (1967). “The Behavior of Maximum Likelihood Estimates Under Non Standard Conditions” in Proceedings of the Fifth Berkeley Symposium in Mathematical Statistics and Probability, Berkeley: University of California press, 221-233

Hwang, G. e Ding, A. (1997) “Prediction Intervals for Artificial Neural Networks” Journal of American Statistical Association, June 1997, Vol. 92, No. 438, Theory and Methods.

Jacobs, R. A. (1990). Task Decomposition Through Computation in a Modular Connectionist Architecture, Ph.d. thesis, University of Massachusetts.

Jacobs, R.A., Jordan, M.I,. Nowlan, S.J e Hinton,G.E. (1991). “Adaptative Misture of local Expert” Neural Computation, vol. 3, pp. 79-87

Jennrich, R. I. (1960)“Asymptotic properties of non-linear least squares estimators”. The Annals of Mathematical Statistics, 1969, Vol. 40, no. 2, 633-643

Jordan, M. I. e Jacobs, R. A. (1994). “Hierarchical mixtures of experts and the EM algorithm”, Neural Computation 6: 181–214.

Kainen, P.C., Kůrková, V, Kreinovich, V., Sirisengtksing, O.(1994) “Uniqueness of network parametrizations and faster learning” Neural, Parallel and Scientific Computations 2: 459-466.

Kuan, C. M. e White, H. (1994). “Artificial neural networks: An econometric perspective”. Econometric Reviews 13: 1–91.

Kůrková, V. e Kainen, P.C (1994). “Functionally equivalent feedforward neural networks” Neural Computation 6, 543-558

Kůrková, V., Šmíd, J.(1994) “An Incremental Architecture Algorithm for Feedforward Neural Nets” in Proceedings of IEEE Workshop Computer-Intensive Methods in Control and Signal Processing.

Leybourne, S., Nwebold, P. e Vougas, D.(1998) – “Unit roots and smooth transition”, Journal of the time series analysis 19: 83-97”

MacKay, D.J.C.(1992a). “Bayesian Interpolation”, Neural Computation 4: 415-447

MacKay, D.J.C.(1992b). “A practical bayesian framework for backpropagation networks”, Neural Computation 4: 448:472

Medeiros, M. C. e Veiga, A. (to appear). “Diagnostic checking in a flexible nonlinear time series model”, Journal of Time Series Analysis.

Medeiros, M..C., Teräsvirta, T. e Rech, G. (2002), “Building neural network models for time series: A statistical approach” Working Paper Series in Economics and Finance 508, Stockholm School of Economics.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

58

Medeiros, M.C. e Veiga A. (2000a) “A hybrid linear-neural model for time series forecasting”, IEEE Transactions on Neural Networks, Vol.11, No. 6. 1402–14012

Medeiros, M.C. e Veiga A. (2000b) “A flexible coefficient smooth transition time series model” Working paper No. 360. Series in Economics and Finance 361, Stockholm School for Economics.

Nowlan, S.J e Hinton (1991). “Evaluation of Adaptative Mixture of Competing Experts”. Advances in Neural Information. Processing Systems, vol. 3, pp. 774-780, San Mateo, CA: Morgan Kaufmann.

Nowlan, S.J.(1990). “Maximum likelihood competitive learning Advances in Neural Information”. Processing Systems, vol. 2, pp. 574-582, San Mateo, CA:Morgan Kaufmann.

Ozaki, T. (1982). “The statistical analysis of perturbed limit cycle process using nonlinear time series models”, Journal of Time Series Analysis 3: 29–41.

Pedreira, C.E., Fariñas, M. e Pedroza, L.C(2001a). “Redes Neurais Locais-Globais – Uma Aplicação ao Problema de Dados Faltantes”. Learning and Non Linear Models. Revista da Sociedade Brasileira de Redes Neurais..

Pedreira, C.E., Pedroza, L. C. e Fariñas, M.(2001b). “Local-Global Neural Networks For Interpolation”. Proceeding of ICANNGA 2001– Praga, pp.55-58

Pötscher, B.M., Prucha, I.R.(1986) “A class of Parttially Adaptative one-step M-estimators for the non linear regression model with dependent observations” Journal of Econometrics 32, 219-251 North-Holland

Rech, G., Teräsvirta, T. e Tschernig, R. (2001). “A simple variable selection technique for nonlinear models”, Communications in Statistics, Theory and Methods 30: 1227–1241.

Schwarz, G. (1978). “Estimating the dimension of a model”, Annals of Statistics 6: 461–464.

Sussmann, H.J.(1992) “Uniqueness of the weights for minimal feedward nets with a given input-output map” Neural Networks 5, 589-594

Swanson, N. R. e White, H. (1995). “A model selection approach to assessing the information in the term structure using linear models and artificial neural networks”, Journal of Business and Economic Statistics 13: 265–275.

Swanson, N. R. e White, H. (1997a). “Forecasting economic time series using flexible versus fixed specification and linear versus nonlinear econometric models”, International Journal of Forecasting 13: 439–461.

Swanson, N. R. e White, H. (1997b). “A model selection approach to real-time macroeconomic forecasting using linear models and artificial neural networks”, Review of Economic and Statistics 79: 540–550.

Tcherning, R. e Yang, L. (2000). “Nonparametric lag selection for time series”, Journal of Time Series Analysis 21: 457–487.

Teräsvirta, T. (1994). “Specification, estimation, and evaluation of smooth transition autoregressive models”, Journal of the American Statistical Association 89(425): 208–218.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA

59

Tjøstheim, D. e Auestad, B. (1994). “Nonparametric identification of nonlinear time series – selecting significant lags”, Journal of the American Statistical Association 89(428): 1410–1419.

Tong, H. (1990). Non-Linear Time Series: A Dynamical System Approach, Vol 6 de Oxford Statistical Science Series, Oxford University Press, Oxford.

Trapletti, A , Leisch, F. e Hornik, K.(2000) “Stationary and integrated autoregressive neural network processes”. Neural Computation 12: 2427-2450

Tsay, R. (1989). “Testing and modeling threshold autoregressive processes”, Journal of the American Statistical Association 84: 431–452.

Van Dijk, D., Teräsvirta, T. e Franses, P. H. (2002). “Smooth transition autoregressive models - a survey of recent developments”, Econometric Reviews 21: 1–47.

Vieu, P. (1995). “Order choice in nonlinear autoregressive models”, Statistics 26: 307–328.

Weigend, A. S., Mangeas, M. e Srivastava, A. N. (1995). “Nonlinear gated experts for time series: Discovering regimes and avoiding overfitting”, International Journal of Neural Systems 6: 373–399.

Weigend, A., Huberman, B. e Rumelhart, D. (1992). “Predicting sunspots and exchange rates with connectionist networks”, in M. Casdagli and S. Eubank (eds), Nonlinear Modeling and Forecasting, Addison-Wesley.

White, H. (1981) “Consequences and Detections of Misspecified Nonlinear Regression Models” Journal of American Statistical Association, Vol 75, No. 374. 419–433.Theory and Methods Sections

White, H. (1990). “Connectionist nonparametric regression: Multilayer feedforward networks can learn arbitrary mappings”, Neural Networks 3: 535–550.

White, H. (1994). Estimation, Inference and Specification Analysis. Cambridge, MA: Cambridge University Press.

White, H. e Domowitz, I. (1984). “Nonlinear regression with dependent observations”, Econometrica 52: 143–162.

Wooldridge, J. M. (1994). “Estimation and inference for dependent process, in R”. F. Engle and D. L. Mc-Fadden (eds), Handbook of Econometrics, Vol. 4, Elsevier Science, pp. 2639–2738.

Xia, Y. e Li, W.K.(1999). “On single index coefficient regression models”, Journal of the American Statistical Association 94 (448): 1275-1285.

Yao, Q. e Tong, H. (1994). “On subset selection in non-parametric stochastic regression”, Statistica Sinica 4: 51–70.

DBD
PUC-Rio - Certificação Digital Nº 9916933/CA