mayte suárez fariñas o modelo de redes neurais globais-locais · rnas, é a mistura de...
TRANSCRIPT
Mayte Suárez Fariñas
O Modelo de Redes Neurais Globais-Locais
Tese de Doutorado
Tese apresentada como requisito parcial para obtenção do título de Doutor pelo Programa de Pós-Graduação em Engenharia Elétrica da PUC-Rio.
Orientadores: Carlos E. Pedreira Reinaldo Castro Souza
Rio de Janeiro, fevereiro de 2003
Ficha Catalografica CDD: 621.3
Suárez Fariñas, Mayte O modelo de redes neurais globais-locais / Mayte Suárez Fariñas; orientadores: Carlos E. Pedreira, Reinaldo Castro Souza. – Rio de Janeiro : PUC, Departamento de Engenharia Elétrica, 2003. [11], 48 f. : il. ; 30 cm Tese (doutorado) – Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Engenharia Elétrica. Inclui referências bibliográficas. 1. Engenharia elétrica – Teses. 2. Redes neurais globais locais. 3. Redes neurais. 4. Modelos não-lineares. 5. Séries temporais. 6. Identificabilidade. 7. Estimação de parâmetros. 8. Consistência. 9. Mistura de especialistas. I. Pedreira, Carlos E. II. Souza, Reinaldo Castro. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Engenharia Elétrica. IV. Título.
Mayte Suárez Fariñas
O Modelo de Redes Neurais Globais-Locais
Tese apresentada como requisito parcial para obtenção do título de Doutor pelo Programa de Pós-Graduação em Engenharia Elétrica da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assinada.
Carlos E. Pedreira Orientador
PUC-Rio / DEE
Reinaldo Castro Souza Orientador
PUC-Rio / DEE
Alexandre Pinto Alves da Silva UFRJ / COPPE
Renato Flores EPGE
Marcelo Medeiros PUC-Rio / Economia
Alvaro Veiga PUC-Rio / DEE
Carlos Kubrusly PUC-Rio / DEE
Ney Dumont Coordenador(a) Setorial do Centro Técnico Científico - PUC-Rio
Rio de Janeiro, 7 de fevereiro de 2003
“Caminante no hay camino, se hace camino al andar
golpe a golpe, verso a verso...”
Antonio Machado
Agradecimentos
Quero agradecer ao professor Carlos E. Pedreira pela orientação desta tese. Ao
professor Marcelo Medeiros pelas inúmeras e valiosas sugestões. Ao Dr. Mauricio
Romero, do IMPA, pela ajuda e cuidadosa revisão das demonstrações
matemáticas. A Dra. Mariela Sued pelas enriquecedoras discussões técnicas. A
Elma Trevisan, Aubin Arroyo e José Koiller pelo seu trabalho na revisão do texto.
Agradeço também ao CNPq pelo suporte financeiro e a cidade de Rio de Janeiro,
por me oferecer um berço belo e hospitaleiro para o desenvolvimento deste
trabalho.
Resumo
Suárez Fariñas, Mayte, Carlos E. Pedreira, Reinaldo Castro Souza (orientadores). O Modelo de Redes Neurais Globais-Locais. Rio de Janeiro, 2003. 59p. Tese de Doutorado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.
Nesta tese apresenta-se o Modelo de Redes Neurais Globais-Locais (RNGL)
dentro do contexto de modelos de séries temporais. Esta formulação abrange
alguns modelos não-lineares já existentes e admite também o enfoque de Mistura
de Especialistas. Dedica-se especial atenção ao caso de especialistas lineares, e
são discutidos extensivamente aspectos teóricos do modelo: condições de
estacionariedade, identificabilidade do modelo, existência, consistência e
normalidade assintótica dos estimadores dos parâmetros. Considera-se também
uma estratégia de construção do modelo e são discutidos os procedimentos
numéricos de estimação, apresentando uma solução para o cálculo de valores
iniciais. Finalmente, ilustra-se a metodologia apresentada em duas séries
temporais reais, amplamente utilizada na literatura de modelos não lineares.
Palavras-chave Redes Neurais Globais Locais, Redes Neurais, modelos não-lineares, séries
temporais, identificabilidade, estimação de parâmetros, consistência, mistura de
especialistas,
Abstract
Suárez Fariñas, Mayte, Carlos E. Pedreira, Reinaldo Castro Souza (orientadores). The Linear Local-Global Neural Network Model.. Rio de Janeiro, 2003. 59p. Tese de Doutorado - Departamento de Engenharia Elétrica, Pontifícia Universidade Católica do Rio de Janeiro.
In this thesis, the Local Global Neural Networks model is proposed within
the context of time series models. This formulation encompasses some already
existing nonlinear models and also admits the Mixture of Experts approach. We
place emphasis on the linear expert case and extensively discuss the theoretical
aspects of the model: stationary conditions, existence, consistency and asymptotic
normality of the parameter estimates, and model identifiability. A model building
strategy is also considered and the whole procedure is illustrated with two real
time-series.
Keywords Local Global Neural Networks, Neural Networks, nonlinear models, time-
series, model identifiability, parameter estimation, mixture of experts.
Sumário
LISTA DE ILUSTRAÇÕES..........................................................................................................X
LISTA DE TABELAS.................................................................................................................. XI
INTRODUÇÃO .............................................................................................................................12
1 O MODELO DE REDES NEURAIS GLOBAIS LOCAIS................................................16 1.1 FORMULAÇÃO DO MODELO..............................................................................................16 1.2 INTERPRETAÇÃO GEOMÉTRICA.........................................................................................20
2 PROPRIEDADES ESTATÍSTICAS DOS ESTIMADORES DO MODELO ..................23 2.1 EXISTÊNCIA DO ESTIMADOR .............................................................................................24 2.2 IDENTIFICABILIDADE DO MODELO ...................................................................................25 2.3 CONSISTÊNCIA FORTE DOS ESTIMADORES ........................................................................29 2.4 NORMALIDADE ASSINTÓTICA ...........................................................................................30 2.5 SOBRE A ESTACIONARIEDADE DO MODELO.......................................................................31
3 PROCEDIMENTOS DE ESTIMAÇÃO E SELEÇÃO DO MODELO............................34 3.1 VEROSSIMILHANÇA CONCENTRADA .................................................................................34
Esquema iterativo de estimação. .............................................................................................35 3.2 VALORES INICIAIS ............................................................................................................35
3.2.1 Procedimento para busca da Solução Inicial. .........................................................36 3.3 CONSTRUÇÃO DO MODELO ..............................................................................................37
3.3.1 Seleção de Variáveis................................................................................................38 3.3.2 Determinação do número de pares-neurônio. .........................................................39
4 RESULTADOS NUMÉRICOS ............................................................................................41 4.1 SÉRIE DE LINCES CANADENSES........................................................................................41 4.2 SÉRIE DE MANCHAS SOLARES..........................................................................................42
5 PROVAS DOS TEOREMAS ENUNCIADOS....................................................................45 5.1 PROVA DO TEOREMA 1. ....................................................................................................45 5.2 LEMA 1.............................................................................................................................45 5.3 LEMA 2.............................................................................................................................48 5.4 PROVA DO TEOREMA 2.....................................................................................................49 5.5 PROVA DO TEOREMA 3.....................................................................................................51 5.6 PROVA DO TEOREMA 4.....................................................................................................53
CONCLUSÕES .............................................................................................................................55
REFERÊNCIAS BIBLIOGRÁFICAS ........................................................................................56
Lista de Ilustrações
FIGURA 1.1 – EXEMPLOS DE FUNÇÕES DE NÍVEL DE ATIVAÇÃO D=6; H(1)=-2; H(2)=2 O D=2; H(1)=0; H(2)=4 .......................................................................................................................................17
FIGURA 1.2 – A ARQUITETURA PROPOSTA........................................................................................18 FIGURA 1.3 – ARQUITETURA DOS COEFICIENTES DO MODELO HIERÁRQUICO ...................................19 FIGURA 1.4– HIPERPLANO................................................................................................................20 FIGURA 1.5 – PARTIÇÃO DO ESPAÇO DE ENTRADA............................................................................21 FIGURA 2.1 – EXEMPLO 1. A) SÉRIE GERADA. B) YT-1 VS FUNÇÃO DE NÍVEL DE ATIVAÇÃO. C)
FUNÇÃO DE AUTOCORRELAÇÃO PARCIAL. D) HISTOGRAMA DA SÉRIE. ....................................32 FIGURA 2.2 – EXEMPLO 3. SÉRIES GERADAS. A) δ=0. B)δ=10-10. ......................................................33 FIGURA 4.1-AJUSTE DA SÉRIE SUNSPOT E PREVISÃO 1-PASSO-À-FRENTE..........................................43
Lista de Tabelas
TABELA 4.1– PREVISÕES UM PASSO À FRENTE E ESTATÍSTICAS DE ERROS PARA A SÉRIE SUNSPOT NO PERÍODO 1980-1998. ................................................................................................................44
Introdução
Ao longo dos anos, têm sido desenvolvidas e estudadas muitas ferramentas
para modelagem e previsão de séries temporais. Entre os modelos que receberam
maior atenção da comunidade científica estão os modelos estatísticos lineares para
o tratamento de dados estacionários, homocedásticos e Gaussianos (Box, Jenkins
e Reinsel, 1994). Esta popularidade é devida principalmente a algumas de suas
características: fácil interpretação física, análise no domínio da freqüência, cálculo
de intervalos de confiança, e resultados assintóticos. Entretanto, evidentemente,
quando se trabalha com séries de natureza intrinsecamente não-linear, fenômenos
tais como ciclos-limite, assimetria e caos não podem ser captados de forma
satisfatória por modelos lineares.
Os últimos anos tem sido testemunha de um grande desenvolvimento dos
modelos não lineares para séries temporais (Tong, 1990; Granger e Teräsvirta,
1993). Entre eles, os modelos não paramétricos, onde não são feitas suposições
sobre a forma paramétrica da relação funcional entre as variáveis a ser modelada
têm sido extensamente aplicada, devido aos avanços computacionais. Para
algumas referências de modelos não paramétricos de séries temporais ver Härdle
(1990), Härdle et al. (1997), e Heiler (1999).
Uma outra classe de modelos, de formulação funcional mais flexível,
oferece uma alternativa onde de fato, a forma funcional da relação entre as
variáveis permanece ainda parcialmente não especificada. Como estes modelos
contem parâmetros, muitas vezes um grande número deles, é freqüente que o
modelo não seja globalmente identificável. A identificabilidade, se conseguida, é
local no melhor dos casos sem impor restrições nos parâmetros. Geralmente, os
parâmetros também não são interpretáveis como o são nos modelos paramétricos.
O modelo de Redes Neurais Artificiais (RNA) é um exemplo proeminente de
formas funcionais flexíveis. Este modelo encontrou aplicações em um grande
número de áreas, incluindo economia, finanças, energia, epidemiologia, etc. O
amplo uso dos modelos de RNA tem como motivação um resultado matemático
que garante que, sob certas condições de regularidade, um modelo de Redes
Neurais relativamente simples es capaz de aproximar qualquer função Borel
13
mensurável para qualquer grado de precisão desejada (Funahashi, 1989; Cybenko,
1989; Hornik et al, 1989,1990; White, 1990; Gallant e White, 1992)
Um outro exemplo de um modelo de formulação flexível, derivado das
RNAs, é a mistura de especialistas. A idéia, baseada na máxima "dividir e
conquistar", de misturar especialistas para realizar mapeamento complexo de
funções foi primeiramente discutida por Jacobs et al(1991). A idéia é foi proposta
por Jacobs et al. (1991). A motivação para o desenvolvimento deste modelo
encontra-se em Nowlan (1990), onde se aborda a adaptação competitiva no
aprendizado não supervisionado como uma tentativa de ajustar uma mistura de
distribuições de probabilidades a um conjunto de pontos. Estas idéias evoluíram
em Jacobs (1990) que usa uma arquitetura modular similar, mas com uma função
de custo diferente. Veja também Jordão e Jacobs (1994). Weigend et al(1995)
mostram uma aplicação desta abordagem na previsão de séries temporais.
Nesta tese propõe-se um novo modelo não-linear, baseado em RNA,
nomeado Redes Neurais Locais Globais. A idéia central do modelo RNGL é
expressar o mapeamento entrada-saída através de uma combinação de funções,
cada uma delas adequada a uma região do domínio. A estrutura básica é
constituída pela combinação de vários pares, cada um deles composto de uma
função de aproximação e uma função de nível de ativação. As funções de nível de
ativação definem, em cada região do domínio, a participação da função de
aproximação correspondente. É possível a ocorrência de superposições parciais
das funções de nível de ativação proporcionando uma maior riqueza do
mapeamento pretendido. Desse modo, o problema de aproximação de funções é
tratado especializando grupos de neurônios, formados pelos pares anteriormente
descritos, que emulam a função geradora em cada setor do domínio. O grau de
especialização em uma determinada região é dado pelo valor da função de nível
de ativação. Por exemplo, em um intervalo onde apenas uma das funções de nível
de ativação tem valor alto, haverá uma dominância da função de aproximação
associada a esta.
14
As primeiras idéias do modelo de Redes Neurais Globais Locais, publicadas
em Pedreira et al(2001) e Fariñas e Pedreira (2001a) e Farinas e Pedreira (2002)
surgem ao abordar o problema de aproximação funcional e interpolação no
domínio real. Sob esta abordagem apresenta-se uma nova arquitetura
conexionista, capaz de reconstruir uma função a partir de estimativas locais ao
longo do domínio de interesse, por meio de uma arquitetura não usual, baseada no
particionamento do domínio da função a ser emulada. Nestes primeiros artigos
foram apresentados resultados teóricos que sustentam o uso deste modelo na
aproximação de funções reais. Em Fariñas e Pedreira (2001a) estuda-se
numericamente o comportamento desta metodologia na aproximação de funções
utilizando dados simulados e comparando seu desempenho com outros métodos
reportados na literatura, que utilizam Redes Multicamadas (MLP) e funções de
bases radiais (RBF).
Sobre esta base, nesta tese estendeu-se o modelo, formulando-o como um
modelo não linear para séries temporais. Esta formulação abrange alguns modelos
não-lineares já existentes e pode ser interpretado como um modelo de Mistura de
Especialistas. Presta-se especial atenção ao caso de especialistas linear, desta vez
denominado o modelo de Redes Neurais Globais-Locais Lineares (RNGL2).
Discutem-se extensamente aspectos teóricos do modelo, a saber: identificabilidade
do modelo; existência, consistência e normalidade assintótica dos estimadores. A
estratégia de construção do modelo é proposta, seguindo as idéias apresentadas
em Medeiros e Veiga (2002). Também são discutidos os procedimentos
numéricos de estimação e apresenta-se uma solução para o cálculo de valores
iniciais. Ilustra-se o procedimento completo modelando as séries clássicas de
Linces Canadenses e Manchas Solares. Estas séries, de natureza não-linear
conhecida, têm sido modeladas por vários autores (Chen,1995; Tong,1990). Os
resultados obtidos no ajuste via RNGL serão comparados finalmente com o
desempenho de outros modelos não lineares.
As principais contribuições desta tese são:
1) Apresenta-se um novo modelo não-linear para a modelagem de séries
temporais.
15
2) São discutidos rigorosamente os aspectos teóricos do modelo e formalmente
provados os seguintes teoremas:
a) Teorema de existência do estimador de mínimos quadrados.
b) Estudo das condições para a identificabilidade do modelo.
c) Teorema de identificabilidade do modelo RNGL2.
d) Teorema de consistência dos estimadores de mínimos quadrados.
e) Teorema de normalidade assintótica dos estimadores de mínimos
quadrados.
No Capítulo 1 o modelo RNGL é formulado, estabelecendo as hipóteses
necessárias e discutindo aspectos relativos a interpretação geométrica. O Capitulo
2 é dedicado a discutir os aspectos teóricos do modelo. Com o intuito de facilitar a
leitura do texto, as provas dos teoremas enunciados ao longo deste capítulo, são
apresentadas em um Capítulo a parte (Capítulo 5). No Capitulo 3 são descritos os
procedimentos utilizados na estimação de parâmetros assim como a estratégia de
seleção do modelo. Os resultados obtidos no ajuste de series reais a traves do
modelo proposto são apresentados no Capítulo 4.
16
1 O Modelo de Redes Neurais Globais Locais
Neste capítulo, formula-se o modelo geral de Redes Neurais Globais no
contexto de um processo estocástico. Esta formulação abriga alguns modelos não
lineares já existentes e admite o enfoque do Problema de Mistura de Especialistas.
Ao abordar o caso de especialistas lineares, discutem-se extensamente aspectos
teóricos do modelo, a saber: existência, consistência e normalidade assintótica dos
estimadores, identificabilidade do modelo, procedimentos de estimação e valores
iniciais. Neste sentido, enunciam-se e provam-se os teoremas relativos a
existência e consistência dos estimadores e são estabelecidas as condições que
garantem a identificabilidade do modelo.
1.1 Formulação do Modelo
O modelo de Redes Neurais Locais Globais (RNGL) descreve o processo
estocástico {yt t=1,2,...n}, yt∈ℜ, através do seguinte modelo não linear:
Ttt ,...,1,),G(y *tt =+= εψx (1.1)
xt∈ℜq é o vetor com os valores defasados de yt e/ou variáveis explicativas, ψ* é o
vetor (verdadeiro) de parâmetros do modelo e {εt} são erros do modelo,
considerados independentes e identicamente distribuídos com média zero e
variância σ2<∞.
A função G(x,ψ) é uma função não linear do vetor xt, com vetor de
parâmetros ψ pertencentes um subespaço compacto Ψ do espaço Euclidiano, e
está definida por:
∑=
=m
1BtiLti ),()B,(L),G(
iψxψxψx (1.2)
onde ψ=(ψL΄, ψB΄)΄, ψL=[ψL1΄,...,ψLm΄]΄, ψB=[ψB1΄,...,ψBm΄]΄ e as funções
Bi(xt, ψBi):ℜq→ℜ e Li(xt, ψLi):ℜq→ℜ chamadas de funções de nível de ativação
17
e funções de aproximação respectivamente. As funções Bi, funções de nível de
ativação são definidas pela expressão:
−><+−
−><+−=
))β,(γexp(11
))β,(γexp(11 )ψ,(B
(2)iii
(1)iii
itt
Bt xdxdx
, i=1, . . . ,m
(1.3)
onde ψB=[γ1, ..., γm, d11,...,d1q,....,dm1,...,dmq, β1(1),...,βm
(1), β1(2),...,βm
(2)]΄,<·,·> denota o
produto escalar no espaço Euclidiano e γi∈ℜ, di∈ℜq, βi(1)∈ℜ, βi
(2)∈ℜ. A forma
funcional das funções de nível de ativação determina uma região de ativação
determinada pelos parâmetros d e β Consideremos A Figura 1.1 ilustra o gráfico
desta função para dois conjuntos diferentes de parâmetros considerando x∈ℜ.
Nota-se que o parâmetro γ está relacionado à declividade desta função entanto que
os parâmetros β(1), β(2) delimitam a região do domínio em que a j-ésima função de
aproximação é mais ativa.
Figura 1.1 – Exemplos de funções de nível de ativação d=6; h(1)=-2; h(2)=2 o d=2; h(1)=0; h(2)=4
Observe-se que, devido à existência das γi na expressão (1.3), pode-se
considerar, sem perda de generalidade que ||di||=1. O conjunto completo de
suposições sobre o modelo será discutido na seção 5.
Embora uma ampla classe de funções de aproximação pode, ser
inicialmente considerada, dedicaremos especial atenção ao caso das funções de
aproximação lineares em x, isto é: Li(x)=ai΄x+bi, com ai∈ℜq, bi∈ℜ. neste caso, o
18
modelo pode ser chamado de Modelo de Redes Neurais Globais-Locais Linear
(RNGL2), onde:
∑=
++′=m
1tBtiit ),()Bb(),G(
ii εψxxaψx (1.4)
ψLi=[ai1,...,aiq,bi]΄ e ψ∈ℜ2m(2+q) e o processo estocástico yt consiste em uma
mistura de processos lineares. Aqui consideramos que a seqüência de erros εt
segue uma distribuição normal. Esta suposição pode ser relaxada, e substituída
pela condição ( ) ∞<∆≤+δε 2tE algum δ>0, como veremos mais adiante.
Esta arquitetura, proposta primeiramente por Pedreira et al(2001, 2001a)
para o problema de aproximação de funções L2 integráveis no caso univariado,
pode ser representada através do diagrama ilustrado na Figura 1.2 .
⊗
+x
G⊗
⊗
B1
B2
Bm
...
Lm
L2
L1
Figura 1.2 – A arquitetura proposta
Observe-se que a camada escondida é formada por m pares de neurônios.
Cada par de neurônios está composto da unidade de ativação, representada pela
função B; e da unidade de aproximação, correspondentes à função L.
A seleção das variáveis de entrada e dos parâmetros da função de nível de
ativação leva a alguns casos particulares que merecem ser comentados. Se
consideramos o caso xt=t, o modelo RNGL modela uma série temporal como
função do tempo. Neste caso, o modelo dividirá o intervalo de tempo em m
subintervalos, onde em cada um deles o modelo será localmente linear. A função
de nível de ativação indica o intervalo onde é válida cada representação linear, e a
suavidade da transição de um modelo a outro está determinada pelo parâmetro de
19
declividade γ. Se γ→∞, a função B tende à função indicadora do intervalo
[β(1),β(2)]. Neste caso, o modelo converte-se no modelo linear por partes. Se, ainda
sob esta perspectiva, são consideradas aproximações constantes (Li=bi) ao invés
de lineares, obtém-se o modelo com m quebras estruturais. Esta tem sido uma
alternativa muito popular em econometria, desde que foi introduzida por Chow
(1960) e Quandt (1960). Esta interpretação referida o modelo linear por partes é
também válida no caso em que se trata com dados seccionais.
No caso de maior interesse, onde as funções de aproximação são lineares, o
modelo RNGL2 pode ser interpretado como um modelo linear com coeficientes
variáveis no tempo:
tttt zy ε+φ′= (1.5)
onde φt=(φt(0),φt
(1),..., φt(q))′ é o vetor q-dimensional de coeficientes reais e
zt=(1,xt′)′ o vetor de variáveis de entrada. A evolução dos coeficientes φt(j) é dada
por:
=
==φ
∑
∑
=
=
q,...,2,1j)ψ,(Ba
0jψ,(Bb
iBt
m
1iij
iBt
m
1ii
(j)t
x
x
(1.6)
onde aij e bi são coeficientes reais e ψBi contem os parâmetros da função de nível
de ativação associada ao neurônio i, isto é ψBi=(γi,di1,...,diq,βi(1),βi
(2))΄. De fato, os
coeficientes do modelo podem ser interpretados como os coeficientes de uma rede
neural não usual, cuja arquitetura é ilustrada na Figura 1.3.
xt(1)
xt(q)
Bm
B1
...
φt(0)
φt(1)
φt(q)
linear
Figura 1.3 – Arquitetura dos coeficientes do modelo hierárquico
20
Note-se que, nesta abordagem, os coeficientes do modelo estão descritos
pela soma de constantes multiplicadas pela função de nível de ativação. Assim,
dentro de cada região de ativação, o coeficiente φt(j) será igual à constante
correspondente, permitindo uma transição suave de uma região a outra. Isto
significa que se tem um modelo fixo dentro de cada região e que este muda
suavemente de uma região a outra em dependência do parâmetro γ. A esta
interpretação, de caráter geométrico, será dedicada a seção seguinte:
1.2 Interpretação geométrica
Nesta seção discute-se a interpretação geométrica da camada oculta formada
pelos pares-neurônios. Seja x∈Γ, onde Γ é um espaço vetorial com produto
interno denotado por <⋅,⋅>. Considere-se a saída B(x,ψB) da "unidade de ativação”
de um par-neurônio da camada escondida da rede neural definida nas equações
(1.1)-(1.3). Os parâmetros d, β(1) e β(2) definem dois hiperplanos paralelos no
espaço vetorial q-dimensional.
{ }(1)q1 β,H >=<ℜ∈= xdx e { }(2)q
2 β,H >=<ℜ∈= xdx (1.7)
A posição de cada hiperplano está determinada pelo vetor de direção d, que
será ortogonal aos vetores que estão sobre o hiperplano, como mostra a Figura
1.4. O escalar β determina a distância do hiperplano até a origem.
Figura 1.4– Hiperplano
x2
-1 0 1 2 3 4-1
0
1
2
3
d
β||d||
x2
-1 0 1 2 3 4-1
0
1
2
3
x2
-1 0 1 2 3 4-1
0
1
2
3
-1 0 1 2 3 4-1
0
1
2
3
dd
β||d||β
||d||
21
Como um hiperplano tem infinitos vetores de direção (vetores ortogonais ao
hiperplano), a restrição ||d||=1 reduz esta multiplicidade, sem perda de
generalidade para o modelo.
Assim, os hiperplanos H1 e H2 são paralelos devido ao fato de terem o
mesmo vetor de direção, e dividem o espaço q-dimensional em três regiões
diferentes: H−,Ho, H+ definidos como:
{ }(1)β,H <ℜ∈=− xdx q
{ }(2)(1)o β,eβ,H ≤≥ℜ∈= xdxdx q (1.8)
{ }(2)β,H >ℜ∈=+ xdx q
A Figura 1.5 ilustra a situação em discussão. A região Ho representa o
estado ativo do par-neurônio e as regiões H− e H+ representam o estado inativo. O
estado ativo ou não de par-neurônio é representado pela função de nível de
ativação B(xt,ψB). O parâmetro γ determina a inclinação da função de nível de
ativação caracterizando a suavidade da transição de um estado a outro. Assim, o
caso limite γ→∞, representa uma transição abrupta de um estado a outro.
Figura 1.5 – Partição do espaço de entrada.
Quando se têm m neurônios, existem m pares de hiperplanos e, portanto
existirão m regiões fechadas e não limitadas do tipo Ho que podem interceptar-se
ou não. Assim, o espaço de entrada q dimensional, ficará dividido em várias
regiões “poliédricas”. Se nem todos os hiperplanos são paralelos, isto é, se ∃ i,j,
i≠j tal que di≠dj, a região formada pela interseção dos hiperplanos, Oj
Oi
Oij HHH I= ,
22
é uma região não vazia e representa a região onde os pares de neurônios i e j estão
ambos ativos. Se todos os di‘s têm alguma componente igual a zero, os
hiperplanos serão paralelos a algum dos planos coordenados, e o espaço ficará
dividido em regiões retangulares. Neste caso tem-se uma situação equivalente a
quando x∈ℜ (q=1), em que forçosamente os di são paralelos, situação que e
discutida em detalhe em Pedreira et al (2001), Farinas e Pedreira (2002), onde se
apresentam as primeiras idéias do modelo RNGL.
Como já foi comentado anteriormente, quando se analisava o modelo RNGL
sob um enfoque de modelo com coeficientes variantes, dentro de cada uma das
regiões Hio, i=1,...,m, os coeficientes φt
(j) do modelo descrito em (1.5) permanecem
constantes e o coeficiente γ permite uma transição suave de um modelo numa
região a outro modelo na região adjacente. Nas regiões de interseção, do tipo O12H ,
onde os pares de neurônios i e j estão ambos ativos, tem-se a mistura de dois ou
mais modelos. Se, di=d ∀ i isto é, se todos os vetores de direção são iguais,
teríamos m regiões paralelas do tipo Ho. Sob a condição (1)1i
(2)i ββ +< a interseção
destas regiões é vazia. O modelo RNGL2 pode então ser interpretado como um
modelo linear por partes com transição suave entre os regimes. Uma revisão
detalhada dos modelos de troca de regimes para séries temporais pode ser
encontrada em Van Dijk et al (2002).
23
2 Propriedades estatísticas dos estimadores do modelo
Na literatura atual, encontram-se disponíveis um grande numero de
algoritmos para estimação dos parâmetros de modelos baseados em Redes
Neurais. No modelo proposto, a estimação dos parâmetros agrupados no vetor ψ
será realizada via máxima verossimilhança, considerando as suposições feitas
sobre εt. A utilização do método de máxima verossimilhança permite ter uma
idéia da incerteza nos parâmetros estimados através do desvio padrão (assintótico)
dos estimadores. No entanto, é conhecido que a estimação de uma rede neural (ou
modelo não linear) através de máxima verossimilhança pode conduzir a
problemas de convergência e que, penalizar a função log verossimilhança é uma
precondição necessária para obter resultados satisfatórios.
Dois argumentos devem ser ditos em favor ad utilização do método de
máxima verossimilhança. Primeiramente, a estimação de modelos não
identificáveis verossimilhança pode ser parcialmente evitada se utilizada uma
estratégia na definição do modelo que proceda de modelos mais simples aos mais
complexos. Em segundo lugar, os valores iniciais para a estimação dos parâmetros
são escolhidos cuidadosamente, detalhe que será abordado mais amplamente em
seções seguintes.
O modelo RNGL2 é similar a muitos modelos lineares e não lineares para
séries temporais nos quais a matriz de informação da função log verossimilhança
é uma matriz diagonal por blocos de tal forma que podemos concentrar a
verossimilhança e estimar primeiramente os parâmetros associados à media
condicional. Sob a suposição de normalidade dos erros no modelo 1-3, o
estimador MQO e o estimador de máxima verossimilhança de ψ coincidem.
Assim, no modelo RNGL2 definido pelas equações (1.1)-(1.3). O estimador
de Mínimos Quadrados (EMQ) é o vetor ψ̂ solução do problema )ψ(Qmin n , onde
2t
n
1ttt
1n )),(Gy(n)ψ(Q ψx∑
=
− −= é a função de erro quadrático médio (EQM).
24
Este estimador enquadra-se na classe de M-estimator considerada por
Pötscher e Prucha (1986) assim como a considerada por Wooldridge (1994).
A seguir serão discutidas as circunstâncias que garantem a existência,
consistência e normalidade assintótica do EMQ. Também serão discutidas as
condições suficientes sobre as quais o modelo RNGL2 é identificável.
2.1 Existência do estimador
A demonstração de existência baseia-se no lema 2 de Jennrich (1969), que
estabelece que sob certas condições de continuidade e mensurabilidade da função
de erro quadrático médio, o estimador de mínimos quadrados existe.
Teorema 1: O modelo RNGL satisfaz as seguintes condições e o EMQ
existe:
i) Para cada x∈χ, a função Gx(ψ)=G(x,ψ) é contínua num subconjunto
compacto Ψ do espaço euclidiano.
ii) Para cada ψ∈Ψ, a função Gψ(x)=G(x,ψ) é mensurável no espaço χ.
iii) et são erros independentes e identicamente distribuídos com média zero e
variância σ2<∞.
Para estender o conjunto de funções de aproximação além das funções
lineares, deve-se garantir que sejam satisfeitas as condições i e ii. Assim, a classe
de funções Li(.) a considerar, deve ser um subconjunto das funções continuas
sobre o compacto Ψ e mensuráveis em x. Note também que a hipótese de
normalidade dos erros não foi utilizada, bastando a suposição de que os erros são
iid, com média zero e variância finita.
A hipótese de compacidade do espaço dos parâmetros pode parecer um
pouco restritiva. Huber (1967) apresenta resultados que requerem espaços apenas
localmente compactos, e uma extensão desse caso pode ser aplicada para obter os
resultados presentes. No entanto, a suposição de compacidade é teoricamente
25
conveniente, e é ainda suficientemente geral para aplicar em qualquer situação na
qual o procedimento de otimização seja levado a cabo em computador.
O lema enunciado permite interpretar o modelo de RNGL como uma
aproximação semiparamétrica de qualquer função Borel mensurável. Entretanto,
deve-se assinalar o fato de que o modelo (1.1)) é em princípio não identificável,
global ou localmente. As condições que garantirão a identificabilidade do modelo
serão discutidas na seção seguinte.
2.2 Identificabilidade do Modelo
O problema fundamental para a inferência estatística nos modelos não
lineares é a não identificabilidade dos parâmetros do modelo. Para garantir a
identificabilidade única sobre a função de erro quadrático médio (EQM) devem
ser estudadas as fontes que provocam a não unicidade no modelo. Estas questões
são detalhadamente examinadas em Sussmann (1992), Kůrková e Kaine (1994),
Hwan e Djin (1997), Trapletti et al(2000) e Medeiros et al(2002) no caso de
Redes Neurais feedfoward. Aqui, serão discutidos brevemente os conceitos e
resultados principais. Em particular, serão estabelecidas e provadas as condições
que garantem que o modelo proposto seja identificável é minimal.
Antes de abordar a identificabilidade do modelo, serão discutidos dois
conceitos relacionados: o conceito de minimalidade do modelo, estabelecido em
Sussman (1992) e ao qual se refere Hwang e Ding (1997) como não redundância;
e o conceito de irredutibilidade do modelo.
Definição 1: Um modelo M é minimal (ou não redundante), se não existe
outra rede com menos neurônios que representa o mesmo mapeamento que o
modelo M.
Outra fonte de não unicidade vem do fato da presença de unidades
irrelevantes no modelo. Isto significa que o modelo pode então ser reduzido,
eliminando algumas unidades sem afetar a relação funcional entrada-saída. Assim,
a condição de minimalidade só é possível quando trabalhamos com modelos
irredutíveis.
26
Definição 2: Seja ],,[ )(ll iiii βγθ d= e ( )ll
liiiti x βγθϕ −><= ,),( dx . O
modelo M é redutível se uma das três condições se satisfazem:
a. Algum dos pares (ai,bi) se anula conjuntamente para algum i.
b. γi=0 para algum i.
c. Existem índices i ≠j tal que os funcionais )x(e)x( jill ϕϕ sejam
equivalentes em sinal (isto é, se para todo x∈ℜq, |)(||)(| ji xx ll ϕ=ϕ )
Definição 3: O modelo M é identificável se não existem dois conjuntos de
parâmetros, tais que as correspondentes distribuições de y sejam idênticas.
No caso do modelo RNGL2 a condição de identificabilidade diz respeito à
função G. Note que, inicialmente, nenhuma Rede Neural é identificável. Quatro
propriedades do modelo RNGL2, causam a não identificabilidade dos modelos:
(P.1) A propriedade de intercambiabilidade dos pares-neurônios da camada
oculta: o valor da função da verossimilhança do modelo não se altera ao se
permutarem os pares de neurônios da camada oculta. Isto resulta em m! modelos
diferentes que são indistintos entre si. Como conseqüência, na estimação dos
parâmetros, tem-se m! máximos locais iguais para a função log verossimilhança.
(P.2) A simetria da função B: o fato de que a função de nível de ativação B
satisfaça que B(x,γ,d,β1,β2) = B(x,γ,d,β2,β1), estabelece outra indeterminação no
modelo, pois ter-se-ão 2m parametrizações equivalentes.
(P.3) O fato de que F(-ϕ)=1-F(ϕ) onde F é a função )e1(1 ϕ+ Por esta razão,
devem ser estudadas todas as combinações de (γ,d,β) que ofereçam sinal oposto
para ϕ (ϕ=γ(<d,x>-β) ) nos levaram a uma indeterminação no modelo. Estas são:
B(x,γ,d,β1,β2) = -B(x,-γ,d,β1,β2) e B(x,γ,d,β1,β2) = -B(x,γ,-d,-β2,-β1)
(P.4) A presença de pares irrelevantes no modelo. As condições (a) e (b) na
definição de redutibilidade dizem respeito à presença de pares de unidades
irrelevantes, que se traduzem em fontes de identificabilidade. Se o modelo contém
27
algum par, tal que Li=0 (ai =0 e bi=0), os parâmetros di e 2i
1i β,β di permanecem não
identificados. Inversamente, se γi=0, então os parâmetros 2i
1i β,β e os associados à
função Li (ai e bi no caso linear) podem tomar qualquer valor sem afetar o valor da
função log verossimilhança. Ainda mais, se (2)i
(1)i ββ = , γi, ai e bi permanecem não
identificados.
As propriedades (P.2)-(P.3) estão relacionadas com o conceito de
reducibilidade. No mesmo espírito dos resultados estabelecidos no Teorema 2.1
de Sussman (1992) e o Teorema 2.3a Hwang e Ding (1997) para Redes Neurais
feed forward e certas funções de ativação, será mostrado que, se o modelo RNGL2
é irreduzível, (P.1) são as únicas formas de modificar os parâmetros sem
modificar a distribuição de Y. Logo, estabelecendo restrições sobre o modelo que
simultaneamente evitem a reducibilidade e a permutação de unidades da camada
oculta, pode-se reduzir o espaço de valores do parâmetro, garantindo a
identificabilidade do modelo:
O problema de intercambiabilidade (Propriedade (P.1)) pode ser evitado
quando se impõe ao modelo a restrição:
(R1): (1)1i
(1)i ββ +< e )2(
1i)2(
i +β<β para i=1,2,...,m.,
As conseqüências devidas à simetria da função de nível de ativação
(Propriedade (P.2)) pode ser resolvida, ao se considerar:
(R2): (2)i
(1)i ββ < para i=1,2,...,m.
Para eliminar a identificabilidade causadas pelas propriedades (P.3) devem
ser impostas duas restrições adicionais:
(R3) γi>0, i=1,..,m
(R4) di>0, i=1,..,m
A primeira dela evita que uma simples mudança de sinal nos parâmetro γ
conduz a problemas de identificação no modelo. Por outro lado, na interpretação
geométrica discutida, vimos que a restrição ||d||=1, restringe esta multiplicidade
28
no vetor de direção do hiperplano. No entanto ainda temos uma ambivalência
produzida pelo fato de que os vetores d, e –d tem a mesma norma e são ambos
ortogonais ao hiperplano. A restrição (R4) evita este problema. Considerando que
d é um vetor unitário, (R4) converte-se em: 0d1dq
2j
2iji1 >−= ∑
=
.
A presença de pares–neurônios irrelevantes, propriedade (P.4) pode ser
contornada aplicando uma estratégia de construção do modelo do tipo especifico-
a-geral, como o sugerido na seção 3.3.
Os teoremas 2.1 de Sussman (1992) e 2.4 de Hwang e Ding (1997)) têm
como conseqüência importante que, para certas funções de ativação, a
identificabilidade do modelo implica a sua minimalidade. Basicamente, os
corolários 2.1 de Sussman (1992) e 2.4 de Hwang e Ding (1997) garantem que um
modelo irredutível é mínimo. O fato de que a irredutibilidade e a minimalidade
sejam equivalentes significa que não existem mecanismos, fora os listados na
definição de redutibilidade, que possam ser utilizados para reduzir o número de
unidades sem mudar a relação funcional de entrada-saída.
Logo as restrições (R.1)-(R.4) impostas ao modelo, garantem que, se não
existem unidades irrelevantes o modelo é identificável e minimal.
No entanto, ainda outra condição deve ser estudada. Os teoremas
comentados são válidos se a função de nível de ativação satisfaz a condição que
diz respeito a independência de certa família de funções (Vide condição B de
Hwang e Ding, 1997). Para as funções de ativação logística, tangente e
gaussianas, esta condição já foi estabelecida (Kůrková e Kaine,1994;
Sussman,1994; Hwang e Ding, 1997). No presente caso, devemos então
comprovar que suposições devem ser feitas para que os resultados se mantenham.
Antes de enunciar o Teorema que estabelece as condições suficientes sob as
quais o modelo RNGL2 é globalmente identificável, algumas suposições devem
ser feitas.
Hipótese 1. Os parâmetros (ai,bi) não se anulam conjuntamente para algum
i=1,..m. Adicionalmente γi=0 ∀i e )2()1(ii ββ ≠ ∀i.
29
Esta Hipótese garante que não existem unidades irrelevantes como descrito
na propriedade (P.4).
Teorema 2
Sob a Hipótese 1 e as restrições:
(R1): (1)1i
(1)i ββ +< e )2(
1i)2(
i +β<β para i=1,2,...,m;
(R2): (2)i
(1)i ββ < , i=1,2,...,m;
(R3) γi>0, i=1,..,m;
(R4) 0d1dq
2j
2iji1 >−= ∑
=
, i=1,..,m
o modelo RNGL2 é globalmente identificável.
2.3 Consistência forte dos estimadores
Em White (1981) e White e Domowitz (1984) se estabelecem as suposições
principais para garantir a convergência forte dos estimadores de mínimos
quadráticos do problema. No contexto de séries temporais as condições que
garantem a consistência (quase segura) são estabelecidas em White (1994) e
Wooldridge (1994), sob a base de um processo estacionário. A continuação
enuncia-se e prova-se o Teorema da consistência dos estimadores do modelo de
RNGL2.
Hipótese 2: O processo gerador de dados (PGD) para a seqüência de
observações escalares {yt}t=1,...T é um processo RNGL2 ergódigo com vetor de
parâmetros (verdadeiro) ψ*∈Ψ. O espaço paramétrico Ψ é um subespaço
compacto de ℜr onde r =2m(2+q).
Teorema 3
Sob as restrições (R.1)-(R.4) e as Hipóteses 1 e 2, o estimador de mínimos
quadrados (EMQ) é quase seguramente consistente.
30
2.4 Normalidade assintótica
Nesta seção estabelecem-se duas condições necessárias para garantir a
normalidade assintótica do EMQ.
Hipótese 3: O valor verdadeiro do vetor de parâmetros, ψ*, é ponto interior
de Ψ.
Hipótese 4: A família de funções { } { } { }) ,B() ,B( BB ψψ tttt xxxx UU
{ } { }) ,B() ,B( BB ψψ ttt xxx ∇∇ UU onde xt ∈ℜ e ϕℓ(xt, θiℓ)=(bixt-γiβi(ℓ)), bi>0, β1<β2
i=1,...,m; ℓ=1,2 e ϕℓ(xt, θiℓ) são não equivalentes em sinal, é linearmente
independente.
Teorema 4
Sob as restrições (R.1)-(R.4) e as Hipóteses 1-4,
( ) ),(ˆ)( ** I0NTQ2
1 d21
T2
2→ψ−ψ
ψ∇σ
−
onde [ ] )(,)()( *2*2*2 ψψψ TTT QQEQ ∇∇=∇ é a matriz Hessiana de QT(ψ) em ψ* e σ2 é
a variância de εt
Na demonstração da consistência dos estimadores, considerou-se como
hipótese que se trabalha com um processo ergódigo. Esta suposição é necessária
desde que utilizar os resultados de Pötscher e Prucha (1986) para provar que a lei
forte dos grandes números é satisfeita. Esta suposição poderia ser parcialmente
relaxada se utilizarmos os resultados de Wooldridge (1994) onde são
estabelecidas as condições de consistência e normalidade assintótica para os M-
estimadores, utilzando a lei uniformemente fraca dos grandes números (uniform
weak law of large numbers (UWLLN)).
Por outro lado, a condição de normalidade sobre os erros do modelo, iid,
pode ser relaxada na prova da consistência e normalidade assintótica dos
estimadores, sendo necessária apenas supor que os erros são iid com média zero,
variância finita e tal que ( ) ∞<∆≤+δε 2tE para algum δ>0.
31
2.5 Sobre a estacionariedade do modelo.
Enquanto as condições de estacionariedad assintótica do modelo proposto,
alguns comentários devem ser realizados. Em se tratando de modelos não lineares
para séries temporais, a obtenção de condições necessárias e suficientes para a
estacionariedade não é, em geral, tarefa fácil. Este é também o caso do modelo
RNGL2. Uma possibilidade é utilizar o fato de que o modelo RNGL2 pode ser
interpretado como um modelo que tem como coeficientes funções autorregresivas
(functional coefficient autoregressive (FAR) model) se xt=[yt-1,...,yt-p]’, e aplicar
os resultados obtidos em Chen e Tsay (1993). No entanto, as restrições obtidas
por esta via, são extremamente restritivas. Simulações realizadas apontam que
modelos com coeficientes autorregresivos altamente explosivos podem ser
estacionários, dependendo da relação dos coeficientes autorregresivos e o vetor de
direção dos hiperplanos. No entanto condições formais e mais gerais que
garantam a estacionariedade do modelo estão atualmente sob estudo.
A seguir, ilustra-se, através de simulação, o comportamento de dois modelos
RNGL2. O exemplo 1 mostra um processo RNGL2 estacionário que é
combinações de modelos autorregresivos explosivos. Para ilustrar a dependência
nos elementos do vetor di, i=1,...,m, o exemplo 2 mostra um modelo onde
d2=[1,0]’.
Exemplo 1. 1000 observações do seguinte modelo RNGL2:
ttt
t
ttt
ε+
−+
−++
++
−+
−++
=
−−−
−−−
))2y(10(exp11
))2y(10(exp11)y0.8(0.5
))1y(10(exp11
))6y(10(exp11)y1.5-(-0.5y
111
111t
onde εt~NID(0,1). O modelo anterior é uma mistura de dois processos
autorregresivos, um explosivo e o outro estacionário. A figura 2.5 ilustra a série
temporal gerada, as funções de nível de ativação, o autocorrelograma das séries e
o histograma dos dados. Pode-se observar que, inclusive com um regime
explosivo, a série é estacionária. No entanto, a distribuição dos dados é altamente
assimétrica e existem algumas evidencias de bimodalidade.
Exemplo 2. 3000 observações do seguinte modelo RNGL2.
32
t
tttttt
tttttt
εδδ
+
−++
−+++
−+
−+
−++
+=
−−−−−−
−−−−−−
)40yy(1.5(exp11
)2yy(1.5(exp11)y2.1y1.9-(0.5
)10y0.7-y(0.7exp11
)10y0.7-y(0.7exp11)y2.5y2.2-(-0.5y
212121
212121t
onde εt~NID(0,1) e δ=0, 10-10. A Figura 2.7 ilustra a série temporal gerada. Como
pode ser observado, o processo é explosivo quando δ=0 mais é assintóticamente
estacionário quando δ=10-10.
(a)
(b)
(c)
(d)
Figura 2.1 – Exemplo 1. a) Série Gerada. b) yt-1 vs função de nível de ativação. c) Função de autocorrelação parcial. D) Histograma da série.
33
(a)
(b)
Figura 2.2 – Exemplo 3. Séries geradas. a) δ=0. b)δ=10-10.
34
3 Procedimentos de Estimação e Seleção do Modelo.
A estimação dos parâmetros não é, numericamente, um problema simples.
Em geral os algoritmos de otimização são muito sensíveis à escolha dos valores
iniciais dos parâmetros. O emprego de algoritmos tais como Broyden-Fletcher-
Goldfarb-Shanno ou Levenberg-Marquard é fortemente recomendado (ver
Bertsekas, 1995) (para detalhes sobre estes algoritmos). Outra questão importante
que deve ser comentada é a seleção do procedimento de busca linear que se efetua
para selecionar o tamanho do passo no algoritmo do gradiente descendente.
Usualmente, a interpolação cúbica ou quadrática resulta uma boa escolha. .
3.1 Verossimilhança concentrada
A máxima verossimilhança concentrada foi proposta por Leybourne,
Nwebold e Vougas (1998) com o objetivo de reduzir consideravelmente a
dimensionalidade do problema de estimação iterativo. E em vez de uma inversão
de uma matriz Hessiana , se invertem duas matrizes menores e o procedimento de
busca linear só se utiliza para obter a i-éssima estimativa de ψB
Se L(x,ψL) é uma função linear nos parâmetros então: LL ψψx x),L( l′= . No
caso de L(x) ser uma reta: Onde ψL=[a,b] e )'1,(x x=l . Se denotamos
( )BixB
i B),(B ψψx = e faz-se a substituição na expressão de G(.), ter-se-á:
( ) iL
m
1i
ix
tix .)(B),G( ψψψx B∑
=
= l
e o modelo (1.1)-(1.3) pode ser escrito como um modelo linear em termos do
parâmetro ψL.
ε)(Zy LBx += ψψ
onde o vetor ψLt=(ψL
1, ψL2,..., ψL m), ψB=(γ1,..., γm, d11,...,d1q,....,dm1,...,dmq, β1
1,...,
βm1) e Zx é uma matriz de a n×m:
35
ψψψ
ψψψψψψ
=ψ
)(B)(B)(B
)(B)(B)(B)(B)(B)(B
)(Z
Bmx
mxB
2x
2xB
1x
1x
Bmx
mxB
2x
2xB
1x
1x
Bmx
mxB
2x
2xB
1x
1x
Bx
nnnnnn
222222
111111
lLll
MM
lLll
lLll
Se assumirmos ψB fixo (condicionado na estimativa do parâmetroψB), o
vetor de parâmetros ψL pode ser estimado analiticamente como:
( ) y)Z()Z()Z(ˆ )E( tB
1tB
tBLBL ψψψψψψ −
== (3.1)
e variância:
( ) 21B
tBLBL )Z()Z(ˆ )V( σ
−=Σ= ψψψψ (3.2)
onde σ2 é a variância assumida para os erros.
Os restantes parâmetros ψB podem então ser estimados condicionados ao
valor de ψL, aplicando o algoritmo de Levenquard –Marquard (L-M) para
completar a i-éssima iteração. O esquema iterativo de estimação é resumido a
seguir.
Esquema iterativo de estimação.
Valores iniciais: )0(B
)0(L ˆ,ˆ ψψ , i=1
Repetir
Calcular )E( )1(BL
(i)L
−= iψψψ segundo (3.1);
Utilizar L-M para achar ( ))'','(Qminargψ B(i)L
(i)B B
ψψψ= s.a (R1-R4);
i=i+1;
Até Convergência.
3.2 Valores Iniciais
Os algoritmos iterativos de otimização são freqüentemente muito sensíveis a
eleição dos valores inicias e certamente também e o caso do modelo RNGL2
36
Em Pedreira et al (2001) e Fariñas e Pedreira (2002) propõe-se uma
heurística para procurar uma solução inicial para o procedimento de estimação.
Dita heurística baseia-se na interpretação geométrica do modelo no caso real,
onde os valores β1,β2 estão relacionados aos intervalos onde a função mantém a
monotonia. Medeiros et al(2001a) propõe um procedimento para calcular os
valores iniciais do modelo AR-NN. Este procedimento também é utilizado na
estimação dos parâmetros do modelo NCSTAR (Medeiros e Veiga, 2000). Neste
caso apresenta-se uma modificação deste procedimento para o caso presente.
Assumindo que já foi estimado um modelo RNGL2 com m-1 pares
neurônios, deseja-se estimar um modelo com m pares-neurônios. Assim uma
escolha natural para os valores iniciais dos estimadores dos parâmetros consiste
em utilizar a estimativa final obtida na etapa anterior de modelagem para os
primeiros m-1 pares-neuronios. Os valores iniciais para os parâmetros do m-
éssimo par-neurônio é obtido através do seguinte procedimento:
3.2.1 Procedimento para busca da Solução Inicial.
Passo 1.
Para k=1,…,K:
1. Construir o vetores [ ]′= (k)qm
(k)1m
(k)m v,...,vv tal que ],( 10v(k)
1m ∈ e
q2,...,j,1,1][ve (k)1jm =−∈ . Para isto seleciona-se (k)
1mv e q2,...,j,v(k)1jm = a
partir uma amostra aleatória da distribuição uniforme U(0,1) e U(-1,1)
respectivamente.
2. Definir 1(k)
m(k)m
(k)m
−= vvd .
3. Calcular as projeções dos x’s sobre o vetor (k)md :
]x,...,[xonde,, n1(k)m
(k)m == xxdp .
4. Seja )p(c2),p(c1 (k)m3/2
(k)m
(k)m3/1
(k)m ZZ == , onde Zα é o percentil de
nível α.
37
5. Calcular ), (k)m
(k)m b(a a través da regressão dos x∈{x: p(x)∈[c1m
(k), m(k)]
sobre os y’s
Passo 2: Definir N valores positivos (j)mγ , j=1,…,N para os parâmetros de
suavidade. Estes valores não precisam ser escolhidos aleatoriamente. Como
as mudanças nos γ tem um efeito pequeno na declividade quando γ é grande,
só se requer um numero pequeno de valores altos. Assim a malha de valores
de γ deve ser mais fina para os valores pequenos.
Passo3: Para k=1,…,K e j=1,…,N, calcular o valor Ln(ψ) para cada
combinação de valores inicias. Selecionar como valores iniciais aqueles que
maximizam a função logaritmo da verossimilhança concentrada ou
equivalentemente o EQM.
Depois de selecionar os valores iniciais do m-éssimo par de neurônios,
reordenam-se as unidades se é necessário para garantir que as hipóteses de
identificação do modelo sejam satisfeitas. Os autores assinalam que tipicamente,
K=1000 e N=20 oferecem bons estimadores dos parâmetros sendo que K é uma
função não decrescente da quantidade de variáveis de entrada γ.
Nesta seção discutiram-se aspectos relacionados com a estimação dos
parâmetros, indicando o algoritmo de estimação a utilizar e apresentando um
procedimento para a inicialização do algoritmo de otimização. A seguir se discute
uma estratégia de modelagem que permita estabelecer as variáveis de entrada, e a
arquitetura do modelo proposto.
3.3 Construção do Modelo
Nesta seção, propõe-se uma estratégia “específico-à-geral” para a
especificação do modelo.
Dois problemas na especificação do modelo RNGL2 requerem especial
atenção. O primeiro deles é a seleção das variáveis explicativas contidas em xt,. A
seleção correta deste subconjunto de variáveis constitui um ponto importante
desde que a seleção de um subconjunto demasiado pequeno conduz a uma má
38
especificação do modelo enquanto escolher demasiadas variáveis agrava a
maldição de dimensionalidade. O segundo problema é a seleção do número
correto de pares-neurônio. O procedimento de especificação pode ser visto como
uma seqüência que consiste nas seguintes etapas:
(1) Seleção dos elementos de xt.
(2) Determinação do número de pares-neurônio.
(3) Validação do modelo estimado.
As primeiras duas etapas do ciclo de modelagem serão discutidas em
detalhe. A validação escapa um pouco do escopo deste trabalho. Entretanto, os
resultados em Medeiros e Veiga (to appear), e Medeiros et al. (2002) podem
facilmente ser generalizados ao modelo RNGL2.
3.3.1 Seleção de Variáveis.
Como já foi comentado, a primeira etapa na especificação do modelo é
escolher as variáveis dentre um conjunto de variáveis potenciais. Embora existam
diversas técnicas não paramétricas de seleção de variáveis (Tcherning e Yang,
2000; Vieu, 1995; Tjøstheim e Auestad, 1994; Yao e Tong, 1994; Auestad e
Tjøstheim, 1990), elas tem uma grande demanda computacional, em particular
quando o número de observações não é pequeno. Nesta tese, a seleção de
variáveis realiza-se linearizando previamente o modelo; e aplicando à
aproximação obtida, as técnicas conhecidas de seleção de variáveis no modelo
linear. Isto minimiza o custo computacional. Com esta finalidade, adota-se um
procedimento simples proposto em Rech et al. (2001). A idéia é aproximar o
modelo não-linear estacionário por um polinômio de ordem suficientemente
elevada. Adaptado à situação atual, a primeira etapa é aproximar a função G(xt;ψ)
por um polinômio de ordem k. Pelo Teorema de Stone-Weierstrass, o erro da
aproximação pode ser arbitrariamente pequeno para k suficientemente grande se
algumas condições gerais, tais como a compacidade do espaço dos parâmetro
forem impostas à função G(xt;ψ). Assim o modelo RNGL2 é aproximado por uma
outra função.
39
ψ),R(
)(G
ttjtj
q
1j
q
1jjjj
tjtj
q
1j
q
jjjjtt
k1
1 kk
k1
21
1 12
21
x
xx
+θ++
θ+π′=ψ
∑ ∑
∑∑
= −=
= =
,,...
,,
x...x
xx~,
L
(3.3)
onde [ ]′′= tt xx ,1~ e R(xt;ψ) é o erro da aproximação. 0s θ’s são parâmetros, e
π∈ℜq+1 é um vetor de parâmetros. A forma linear da aproximação é independente
do número de pares-neurônio no modelo. Na equação (3.3), cada produto de
variáveis envolvendo ao menos uma variável redundante tem coeficiente zero.
Utilizando esta propriedade de (3.3), podem ser eliminadas as variáveis
redundantes do modelo. Para fazer isto primeiramente efetua-se a regressão de yt
em todas as variáveis da parte direita de (3.3) assumindo R(xt;ψ) =0, calculando o
valor do critério de seleção modelo (CSM), por exemplo AIC (Akaike, 1974) ou
SBIC (Schwarz, 1978). Seguidamente, eliminam-se uma variável do modelo
original e efetuamos a regressão de yt nos termos restantes do polinômio
correspondente e calculamos outra vez o valor do CSM. Este procedimento é
repetido omitindo uma variável cada vez. Continua-se omitindo dois regressores
do modelo original e prossegue-se dessa maneira até que o polinômio seja função
de um único regressor e, finalmente, apenas uma constante.
Fazendo isso, escolhe-se a combinação de variáveis que oferece o valor
mais baixo do CSM. Isto significa estimar 1iqq
1i
+
∑=
modelos lineares através de
MQO. Note que seguindo este procedimento, as variáveis para o modelo RNGL2
são selecionadas ao mesmo tempo. Rech et al. (2001) mostraram o bom
desempenho deste procedimento inclusive em amostras pequenas quando
comparado às técnicas não-paramétricas. Além disso, pode ser aplicado com
sucesso em amostras grandes onde a seleção do modelo por técnicas não-
paramétricas se torna computacionalmente infatível.
3.3.2 Determinação do número de pares-neurônio.
Em aplicações reais, o número de pares-neurônio é desconhecido e deve ser
estimado baseado nas observações. Pruning é, na literatura de Redes Neurais, um
dos métodos mais populares para seleção de número de neurônios do modelo.
40
Nele, se estima primeiramente um modelo com um grande número de neurônios e
subseqüentemente, se reduz o tamanho do modelo aplicando uma técnica
apropriada tal como crossvalidation. Outra técnica muito utilizada é a
regularização que pode ser caracterizada como máxima verossimilhança
penalizada aplicados na estimação de um modelo de Redes Neurais. Para uma
discussão detalhada veja, por exemplo, Fine (1999, pp. 215-221). A regularização
bayesiana pode servir como exemplo (MacKay, 1992a; MacKay, 1992b).
Uma outra possibilidade é utilizar um CSM para determinar o número de
pares-neurônio na camada oculta. Swanson e White (1995), Swanson e White
(1997a), e Swanson e White (1997b) aplicam o critério de seleção modelo de
SBIC como segue: Eles começam com um modelo linear, adicionando as
variáveis potenciais até que o CSM indique que o modelo não pode mais ser
melhorado. Então eles estimam modelos com um único neurônio e adicionam-lhe
regressores seqüencialmente, um por um, a menos que o SBIC não mostre
nenhuma melhoria adicional. Em seguida, os autores adicionam uma outra
unidade escondida e prosseguem adicionando variáveis a ela. O processo de
seleção termina quando o CSM indica que não devem ser adicionadas mais
unidades escondidas ou variáveis ou quando alcançar um número máximo de
unidades escondidas, predeterminado.
Neste trabalho adota-se uma estratégia similar à descrita acima. Após
selecionar as variáveis explicativas através do procedimento descrito na seção
anterior, estima-se com um modelo de um único par-neurônio e calcula-se o
SBIC. Continua-se a adicionar pares-neurônio até que o SBIC não indique
nenhuma melhoria adicional. O SBIC é definido como:
[ ],lnˆln q)2m(2T(T))((h)SBIC 2 +×+σ= (3.4)
onde σ2 é a variância residual estimada. Isto significa que para selecionar um
modelo com um par-neurônio, é necessário estimar m+1 modelos.
Uma outra maneira de determinar o número de pares-neurônio é seguir a
proposta de Medeiros e Veiga (2000a) e Medeiros et al. (2002) e usar uma
seqüência de testes LM. No entanto, isto vai além do escopo deste trabalho.
41
4 Resultados Numéricos
Neste capítulo, são apresentados os resultados numéricos para o modelo
RNGL2 utilizando séries reais. O primeiro exemplo considera só o ajuste do
modelo enquanto o segundo mostra o desempenho na previsão 1 passo à frente.
Na seleção do modelo é utilizado a estratégia de modelagem descrito na seção 3.3.
4.1 Série de Linces Canadenses
A primeira série de dados a ser analisada é o logaritmo em base 10 do
número de Linces Canadenses (Canadian Lynx) caçados no distrito Mackenzie
River do Noroeste no período 1821–1934. Para maiores detalhes e historia ver
Capítulo 7 de Tong (1990). Esta série foi analisada por Ozaki (1982), Tsay
(1989), Tong (1990), Teräsvirta (1994), e Xia e Li (1999). Considerando estes
resultados, foram selecionada as variáveis explicativas do modelo entre os 7
primeiros valores defasados (lags) da série temporal.
Com o procedimento descrito na seção 3.3 e utilizando o SBIC,
identificamos os lags 1 e 2 utilizando o SBIC e os lags 1,2,3,5,6,7 com o SBIC.
Continuamos com a construção do modelo RNGL2 com somente lags 1 e 2 por ser
mais parcimonioso. O SBIC indica como melhor modelo, aquele com dois pares-
neurônios (m=2). O modelo final pode ser escrito como:
( ) ( )( )
( ) ( )( )
t
2t1t
2t1t2t1t
2t1t
2t1t2t1tt
ε8110y9800.18y820
,18170y9800.18y820B5.3y1321.77y
910y5700.82y27,2311y5700.82y27
B21y802.24yy
ˆ...
....
......
..
+
−+×−+×
×+−+
+
+−×+−×
×+−=
−−
−−−−
−−
−−−−
=σεˆ 0,2041 =σσε Lˆˆ 0,876, R2=0,8673
onde Lˆˆ σσε é a razão entre o desvio padrão dos resíduos do modelo RNGL2 e os
resíduos de um AR(2) e R2 é o coeficiente de determinação. O valor do desvio
42
padrão dos resíduos ( =σεˆ 0,2041) é menor que os obtidos por outros modelos
utilizando só os dois primeiros valores defasados como variáveis explicativas. Por
exemplo, o modelo não-linear proposto por Tong (1990, p. 410) apresenta desvio
padrão dos resíduos igual a 0.222; o modelo Exponencial Autorregresivo
(EXPAR) proposto por Ozaki (1982) tem 0,2080. Teräsvirta (1994) encontrou
melhores resultados (0.187), mas incluindo variáveis até o lag 11. Com o RNGL2
foram obtidos valores próximos a este considerando só os primeiros 4 lags.
4.2 Série de Manchas Solares
Nesta seção ilustramos o modelo RNGL2 num exemplo real. Neste exemplo
considera-se a série de número de manchas solares no período entre 1700-1998,
obtidas do National Geophysical Data Center (web page: www.ngdc.noaa.gov).
As observações para o período 1700-1979 foram utilizadas para a estimação do
modelo e as restantes observações foram utilizadas para avaliar as previsões.
Adotamos aqui a mesma transformação utilizada em Tong
(1990), [ ]1)1(2y tt −+= N onde Nt é o número de manchas solares.
Esta série, conhecida na literatura como Sunspot é fortemente não-linear e
tem sido modelada por vários autores. MacKay (1992 a, b) utiliza uma rede neural
artificial (Modelo NN) com 5 neurônios e os primeiros 9 lags como entrada,
estimados com regularização bayesiana e também o modelo linear com lags
utilizando SBIC (Modelo AR). Dois modelos do tipo SETAR têm sido utilizados
na modelagem desta série, um reportado por Tong (1990) e outro por Chen
(1995). O modelo de Chen (1995) a variável treshold é uma função não linear dos
lags da série temporal enquanto Tong (1990) utiliza só um único lag.
Para começar a modelagem da série foi utilizada a estratégia de seleção de
variáveis discutida na seção 3.3.1, considerando uma aproximação de terceira
ordem para o modelo verdadeiro. Aplicando o critério SBIC, são selecionados os
lags 1,2,7 como variáveis explicativas (O AIC indica lags 1,2,4-10). No entanto,
os resíduos estimados são fortemente correlatados. Para eliminar esta correlação
serial se inclui yt-3 no conjunto de variáveis explicativas. Seguidamente,
43
determinou-se o número de pares neurônios seguindo a estratégia descrita na
seção 3.3.2. O modelo final, com m=2, pode ser escrito como:
( )( )( )
( )( )( )
t
7t3t2t1t
7t3t2t1t
7t3t2t1t
7t3t2t1t
7t3t2t1t
7t3t2t1tt
ε,5386y010y9400.22y0.24y1.94
,912y010y9400.22y0.24y1.94B
6710.38y0.14yy8000.67y-448y330y9400.04y0.09y0.31
,92.54y330y9400.04y0.09y0.31B
0.990.37y0.18y0.65y1.67yy
ˆ......
.....
..
+
−−++×−−++×
×
×+−−++
−+−+×++−+×
×
×−++−−=
−−−−
−−−−
−−−−
−−−−
−−−−
−−−−
Os valores para o desvio padrão dos erros estimados na etapa de treino foi
de foi de 1.7359. Este valor é melhor que os obtidos por outros modelos não
lineares. Por exemplo Xia e Li (1999) estimaram um modelo com εσ̂ =1.772;
Tong(1990) no seu modelo SETAR com dois regimes obtém εσ̂ =1.932. A
Figura 4.1 ilustra os resultados para a previsão 1 passo à frente no período de
1980-1998.
1750 1800 1850 1900 1950 20000
5
10
15
20
25
30Real Estimado
Figura 4.1-Ajuste da série Sunspot e previsão 1-passo-à-frente.
Para comparar desempenho out of sample do modelo estimado comparamos
as previsões do modelo RNGL2 com as obtidas através dos modelos não lineares
comentados anteriormente. A Figura 4.1 mostra as previsões 1 passo à frente para
cada modelo, os erros de previsão e as estatística de erro. A tabela mostra as
previsões para a série original Nt, obtidas a partir das previsões para a série
transformada yt. Os resultados mostram-se favoráveis ao modelo RNGL2 em
termos de previsão um passo-à-frente.
44
Tabela 4.1– Previsões um passo à frente e estatísticas de erros para a série Sunspot no período 1980-1998.
Modelo RNGL2 RNA Modelo SETAR (Tong, 1990)
SETAR model (Chen, 1995)
Modelo AR
Ano Nt Forecast Error Forecast Error Forecast Error Forecast Error Forecast Error 1980 154,6 149.1 5.5 136.9 17.7 161.0 -6.4 134.3 20.3 159.8 -5.2 1981 140,4 131.1 9.3 130.5 9.9 135.7 4.7 125.4 15.0 123.3 17.1 1982 115,9 101.8 14.1 101.1 14.8 98.2 17.7 99.3 16.6 99.6 16.3 1983 66,6 81.2 -14.6 88.6 -22.0 76.1 -9.5 85.0 -18.4 78.9 -12.3 1984 45,9 42.7 3.2 45.8 0.1 35.7 10.2 41.3 4.7 33.9 12.0 1985 17,9 22.4 -4.5 29.5 -11.6 24.3 -6.4 29.8 -11.9 29.3 -11.4 1986 13,4 10.0 3.4 9.5 3.9 10.7 2.7 9.8 3.6 10.7 2.7 1987 29,4 19.4 10.0 25.2 4.2 20.1 9.3 16.5 12.9 23.0 6.4 1988 100,2 71.9 28.3 76.8 23.4 54.5 45.7 66.4 33.8 61.2 38.9 1989 157,6 160.7 -3.1 152.9 4.6 155.8 1.8 121.8 35.8 159.2 -1.6 1990 142,6 145.9 -3.3 147.3 -4.7 156.4 -13.8 152.5 -9.9 175.5 -32.9 1991 145,7 118.1 27.5 121.2 24.5 93.3 52.4 123.7 22.0 119.1 26.6 1992 94,3 101.8 -7.5 114.3 -20.0 110.5 -16.2 115.9 -21.7 118.9 -24.6 1993 54,6 69.3 -14.7 71.0 -16.4 67.9 -13.3 69.2 -14.6 57.9 -3.3 1994 29,9 29.8 0.1 32.9 -3.0 27.0 2.9 35.7 -5.8 29.9 -0.1 1995 17,5 14.0 3.5 19.2 -1.7 18.4 -0.9 18.9 -1.4 17.6 -0.1 1996 8,6 14.8 -6.2 10.2 -1.6 18.1 -9.5 11.6 -3.0 15.7 -7.1 1997 21,5 17.2 4.3 21.3 0.2 12.3 9.2 11.8 9.7 16.0 5.5 1998 64,3 63.9 0.4 67.6 -3.3 46.7 17.6 58.5 5.8 52.5 11.8
RMSE 11.7 13.8 18.7 16.9 16.5 MAE 8.6 11.2 13.1 14.0 12.4
45
5 Provas dos teoremas enunciados
5.1 Prova do Teorema 1.
A condição iii já foi assumida na definição do modelo. É fácil provar no
nosso caso que a função G(x,ψ) é contínua como função dos parâmetros ψ, uma
vez que tanto B(ψB) como as funções Li(ψL) lineares são contínuas como funções
de ψB e ψL para cada valor de x. Da mesma forma, pode-se concluir que a função
G(x,ψ) é continua em x, logo mensurável em χ, para cada valor do parâmetro ψ.
Logo as condições ii e iii são satisfeitas.
O lema 2 de Jennrich (1969) mostra que as suposições i-iii são suficientes
para garantir a existência (mensurável) do EMQ no modelo RNGL2. Neste caso, a
seqüência nψ̂ que converge a ψ são funções mensuráveis de y e x, isto é,
→χ )Y,(:ψ̂ ℜ. (ver comentários em White, 1981).
5.2 Lema 1
Lema 1. A classe de funciones { } { }(t))(t),tB((t))(t),B( 2121 ϕϕϕϕ U onde
ϕℓ(t)=(bt-γβ(ℓ)), ℓ=1,2; b>0 e β1<β2 onde ϕ são não equivalentes em sinal é
linearmente independente .
Prova:
Seja n inteiro positivo. Deve-se provar que, se existem escalares ai, ia~ , γi>0,
bi>0, βi(1)<βi
(2), i=1,2,...n; com (bi,γi,βi(1),βi
(2))≠(bj,γj,βj(1),βj
(2)) (por ser não
equivalentes em sinal) para i≠j tal que ∀t∈ℜ tem-se que:
∑=
=+n
1i
2i
1ii
2i
1ii 0(t))(t),B(ta~(t))(t),B(a ϕϕϕϕ (5.1)
então ai=ãi=0 i=1,...,k.
46
Considerando o fato já apontado que B(ϕ1,ϕ2)=-[F(-ϕ1)-F(-ϕ2)], com F
função logit, a expressão (5.1) é equivalente a:
[ ] [ ]∑=
=ϕϕ+ϕϕn
1i
2i
1ii
2i
1ii 0(t)F(--(t))F(-ta~(t)F(--(t))F(-a (5.2)
Desenvolvendo a série de Taylor de F(-ϕℓi(t)), ℓ=1,2, tem-se:
tkbβk-
1k
k)(i
i)(
ii ee1)()(t)F(l
l γ∞
=∑ −=ϕ− (5.3)
Estas séries convergem absolutamente quando 1e )βγ-t(b (1)iii < e
1e )βγ-t(b (2)iii < ou seja para )bβγ(t i
(1)ii< . Logo existe M suficientemente pequeno
tal que (5.3) converge para todo t∈(-∞,M). Substituindo (5.3) em (5.4) e
escrevendo Ci(ℓ)=γiβi
(ℓ) obtém-se:
[ ] [ ]∑ ∑∑=
∞
=
∞
=
=−+−n
1i
tkbk)(C-k)(C-
1k
ki
tkbk)(C-k)(C-
1k
ki 0ete-e1)(a~ee-e1)(a i
2i
1ii
2i
1i (5.4)
Note que pela positividade de γi, satisfaz-se que Ci(1) < Ci
(2). Denotando ll i-C)(
i eW −= , ℓ=1,2, ainda Wi(1) < Wi
(2) e substituindo (5.2) em (5.4):
( ) ( ) ( ) ( )∑ ∑∑=
∞
=
∞
=
=
+
n
iiii1i
tkb
1k
kki
tkb
1k
kki 0eW-Wa~eW-Wa i)2()1(i)2()1(
que pode ser reordenada (por ser absolutamente convergente) e rescrita como:
∑∞
=
′′ =′′+′1h
tb h
tbh' 0ete hh αα
(5.5)
onde ,...,bb 21 <′<′ e cada ib′ são múltiplos inteiros de algum bj.
No entanto, pode-se provar que 0hh =′′=′ αα :
Dividindo (5.5) por tb1et ′ , obtém-se que:
∑∞
=
′′′′ =′′+′
1h
)b-bt(
h)b-bt(
h' 0t
ee1h
1h αα (5.6)
tomando o limite em (5.6) quando t→-∞ e considerando que 0bb 1h >′−′ para
h≠1, conclui-se que 01 =′α . Considerando a expressão (5.5) com 01 =′α e
47
dividindo agora por tb1e ′ obtém-se ∑∞
=
′′′′ =′′+′+′′2h
)b-bt(h
)b-bt(h'1' 0tee 1h1h ααα . Tomando
o limite quando t→-∞, os termos no somatório se anulam obtendo: 01 =′′α .
Repetindo sucessivamente este raciocínio chegaremos a 0hh =′′=′ αα como
queríamos provar.
Resta provar, a partir de 0hh =′′=′ αα , que ai=ãi=0. Como as expressões de ai e
ãi em termos de hh eαα ′′′ respectivamente são análogas, inclui-se a prova só para hα′ .
Seja io=1, Seja J={j∈{1,…,m}: bj=bio}. Deve-se provar que aj=ãj=0 ∀ j∈J
Para cada k∈IN, existe hk, tal que ok ih kb b =′ . Existe também um inteiro N>0
tal que para todo l e i≥io+1, (1+Nl)b1 não é um múltiplo inteiro de bi. Como para
cada hk se satisfaz que 0kh =′α , em particular para k=(1+Nl) temos:
( ) ( ) 0WWaJj
kj
kjjh
)2()1(
k=
−=′ ∑
∈
α
ou seja:
( ) ( )∑∑∈∈
=Jj
kjj
Jj
kjj WaWa )2()1( (5.7)
se j∈J, então bj=bio e pela construção dos bi’s isto só acontece se ∀ j∈J ďj=ďio,
logo dj=dio e γj=γio. Como (bi,γi,βi(1),βi
(2))≠(bj,γj,βj(1),βj
(2)) então ,βi(1)≠βj
(1), βi(2)≠βj
(2)
os temos que obtendo que ∀ j,j’∈J j≠j’: )()(j'j WW ll ≠ ; e como βj
(1)<βj(2), então
)2()1(jj WW < ∀ j∈J.
Seja nJ o cardinal de J e φ:{1,…,nJ}→J uma reordenação de J tal que )2()2()2()1()1()1(
)(n(2)(1))(n(2)(1) JJW...WW,W...WW φφφφφφ <<<<<< e )2()1(
(i)(i) WW φφ < . Dividindo
(5.7) por )2()(nJ
Wφ e tomando limite quando k →∞ temos:
+=
∑∑−
==
1n
1j
k
)(n
(j)(j)k)(n
n
1j
k
)(n
(j)(j)k
J
J
J
J
J
)2(
)2(
)2(
)1(
WW
alimaWW
alim φ
φφφ
φ
φφ
e daqui chega-se a 0a )(nJ=
φ.
48
Repetindo o mesmo procedimento sucessivamente, obtêm-se que
0a 1)-(nJ=φ , 0a (3) =φ ,…,. 0a (1) =φ
Tomando sucessivamente i=2,...,m com o respectivo conjunto J que define o
conjunto J e repetindo idêntico raciocínio conluie-se que ai=0 i=1,…m. E
analogamente ãi=0 i=1,…m, como se queria provar.
5.3 Lema 2
Lema 2. Seja {ďi}um conjunto de vetores em ℜq tal que di1 > 0 para todo i.
Seja V o vetor unitário que, segundo Hwang e Ding(1997) existe e satisfaz:
(i) <ďi,V> > 0
(ii) se ďi≠ďj então <ďi,V> ≠ <ďj,V>.
Então, existe uma base V1,..., Vq que satisfaz as mesmas condições.
Prova
Seja V0 o vetor unitário tal que para ďi distintos, as projeções sobre V0, bi =
<ďi,V> sejam também diferentes e positivas. Deve-se encontrar uma base V1,...,
Vq que satisfaça as mesmas condições.
Dado V0, definem-se os Vj’s como:
qq0q3303220201 eVV...,,eVV,eVV,VV ε−=ε−=ε−==
onde ej é o vetor canônico com 1 na posição j e zero caso contrário e εj é
suficientemente pequeno. Deve-se provar (1) que satisfazem as condições i e ii e
(2) que formam uma base do espaço. Para todo j, a projeção de di sobre Vj é bi =
<ďi,Vj> = <ďi,V0> + εjdij, onde os primeiros somando são sempre positivos e
diferentes quando os di’s são diferentes. Logo pode-se escolher εj suficientemente
pequeno tal que bi = <ďi,Vj> continue sendo positivo e bi continue sendo positivo
e diferente para di’s diferentes.
49
Para mostrar que os q vetores assim definidos formam uma base é suficiente
mostrar que são linearmente independentes: Seja uma combinação arbitrária
destes vetores:
0eααV0)e-(VαVα0Vα jj
q
2jj
q
1jj0jj0
q
2jj01j
q
1jj =−⇒=+⇒= ∑∑∑∑
====
εε
de aqui que:
jj
q
2jj
q
1jj0 eααV ε∑∑
==
= (5.8)
escrevendo a igualdade anterior para a primeira componente de cada vetor e
levando em consideração que o membro esquerdo contém somas dos vetores
canônicos 2,3 até q, tem-se:
0eααV1
jj
q
2jj
1
q
1jj0 =
=
∑∑==
ε (5.9)
de onde 0αVq
1jj01 =∑
=
e como V01≠0 tem-se que 0αq
1jj =∑
=
.
Escrevendo (5.9) para a k-éssima componente (k=2,3...,q) tem-se que:
kkk
jj
q
2jj αeα0 εε =
= ∑
=
⇒ 0αk = , k=2,..,q.
e como 0αq
1jj =∑
=
, conclui-se que α1=0. Logo todos os αj’s são nulos e os {Vj}
são linearmente independentes; logo, eles formam uma base de ∈ℜq.
5.4 Prova do Teorema 2
Para mostrar identificabilidade, deve-se provar que, sob a Hipótese 1 e as
restrições (R.1)-(R.4) se existem duas parametrizações diferentes ψ,ψ~ tais que
∀xt∈ℜq
50
∑∑==
+=+n
itit
n
itit bb
1B
ti
1B
ti )~,)B(~~(),)B((
iiψψ xxaxxa
Então ii BBii
~,~,~ ψψ === ii bbaa , i=1,...,m
A equação anterior pode ser reescrita como:
( )∑=
=+n
jtt
1Bjj
tj 0),B()e ψ(xxc (5.10)
onde ),B(),B( BjBj ψψ tt xx =( para j=1,...,m; )~,B(),B( mBj-Bj ψψ tt xx =( para j=m+1,...,
2m; cj=aj para j=1,...,m; mjjc −−= a~ para j=m+1,...,2m; bj=ej para j=1,...,m;
mjj be −−=~ para j=m+1,..., 2m.
Observe que a expressão (5.10) é satisfeita ∀x∈ℜq o que dificulta o trabalho
algébrico. Assim primeiramente trata-se de reduzir a dimensão de x passando a
um espaço de dimensão 1, para depois utilizar o Lema 2.
Denotemos ďi=(γidi). Seja V o vetor unitário tal que para ďi distintos, as
projeções sobre V sejam também diferentes (Veja Teorema 2, de Hwang e Ding,
1997). Como existe um número finito de di, γi>0 e os di tem a primeira
componente positiva, é possível construir V tal que as projeções bi=<ďi,V> sejam
positivas. Note-se que V e di são vetores unitários, logo bi=γicos(α) onde γi>0 e α
é ângulo entre V e di. Logo H garante que é possível encontrar um vetor V tal que
o ángulo entre di e v seja positivo. A igualdade (5.10) é satisfeita ∀x∈ℜq, logo em
particular, para x que pertencem a reta que tem vetor de direção V; ou seja x=xV,
t∈ℜ. Logo )b(),()( )(iii
)(iii
lll βγβγϕ −=−><= xixdx e a equação (5.10) se
transforma em:
( )∑=
=+n
jtt xc
1Bjjj 0),B()e ψ(Vx (5.11)
onde >=< Vc ,jjc .
Para simplificar a notação, denotemos ϕj(ℓ)=γj(bjx-βj
(ℓ))=ϕ(xt,θjℓ), j=1,...,m. O
Lema 1 garante que, se )(1
ljϕ e )(
2
ljϕ são não-equivalentes em sinal,
j1,j2∈{1,...,2m}, que a classe de funções { } { }),B(),B( )2()1()2()1(jjjj x ϕϕϕϕ U é
51
linearmente independente. Isto é (5.11) se satisfaz, se e só se jc e ej se anulam
conjuntamente para cada j∈{1,..., 2m}.
No entanto da condição jc =0 não podemos concluir diretamente que os
cj=0. O Lema 1, mostra que na realidade não existe só um vetor V; é possível
provar que existe um conjunto de vetores V1,...,Vq que satisfazem as mesmas
condições que V e que formam uma base do ℜq. Como os Vj’ satisfazem as
mesmas condições de V, a prova do Lema 2 é ainda válida chegando a que para
cada i, o produto escalar >< ji , Vc =0, para cada Vj elemento da base vetorial, logo
cj=0.
No entanto a Hipótese 1 garante que não existem unidades irrelevantes no
modelo, logo )(1
ljϕ e )(
2
ljϕ são equivalentes em sinal. Mas as restrições (R.2)-(R.4)
não permitem que dois funções ϕj(ℓ)e ϕi
(ℓ) do mesmo modelo sejam equivalentes
em sinal. Conseqüentemente, existem j1,j2∈{1,...,2m}, tais que )(1
ljϕ e )(
2
ljϕ são
equivalentes em sinal. Sob as restrições (R.2)-(R.4) a única possibilidade é que
exista alguma permutação nos pares-neurônios da camada oculta, mas a restrição
(R.1) exclui esta possibilidade. Assim, o único casso onde (5.11) se satisfaz ∀ xt
∈ℜq é quando ii BBii
~,~,~ ψψ === ii bbaa , i=1,...,m
5.5 Prova do Teorema 3
Para a prova deste Teorema utiliza-se o Teorema 3.5 de White (1994),
provando que as hipóteses ali estabelecidas são satisfeitas.
As hipóteses 2.1 e 2.3, que se referem ao espaço de probabilidades e as
funções de densidade, são triviais. As hipóteses 3.1. a, b e, c se referem à função
E(log(f(xt,ψ)), que no nosso caso é igual a -E(q(xt,ψ)). Logo,
∫= ))dF(,q())ψ,q(( t xψxxE , onde q(xt,ψ)=(G(xt,ψ o)-G(xt,ψ)+et)2. A seguir se prova
que estas hipóteses são satisfeitas.
52
Hipótese 3.1a: Para cada ψ, E(q(xt,ψ)) existe e é finita. t=1,...n
Como G(xt,ψ) é contínua como função de ψ no compacto, logo
uniformemente contínua, se satisfaz que sup(G(xt,ψo)-G(xt,ψ))=M<∞. Logo temos
que )()()(),()),(( 2 xxψxψx dFMdFqqE tt ε∫∫ +≤= . Utilizando o fato de que εt tem
média zero e variância σ2 e aplicando o Teorema 2, de Trapletti et al(2001),
garante-se que εt é k-integrável para qualquer k finito, logo E(q(xt,ψ))<∞.
Hipótese 3.1b: E(q(xt,ψ)) é contínua em Ψ. t=1,...n
Seja ψ→ψo, como para todo t G(xt,ψ) é contínua em ψ, logo para todo t,
q(xt,ψ)→q(xt,ψo) (convergência pontual). Da continuidade de G(.,ψ) sobre o
compacto Ψ, tem-se a continuidade uniforme e, seguindo raciocínio análogo ao
empregado na prova da hipótese 3.1a. chega-se a que q(xt,ψ) está dominada por
uma função integrável (dF). Logo, pelo Teorema da convergência dominada,
chegamos a que ∫∫ → )(dF),(q)(dF),(q o xψxxψx , logo E(q(xt,ψ)) é contínua.
Hipóteses 3.1c. E(q(xt,ψ)) obedece a lei forte dos grandes números (strong
ULLN).
O Lema A2 de Pötscher e Prucha (1986) garante que E(q(xt,ψ)) obedece a
lei forte dos grandes números. O conjunto de hipóteses b do dito lema são
satisfeitas: (1) trabalha-se com um processo estritamente estacionário e ergódico;
(2) da continuidade de E(q(xt,ψ)) mostrada no item b deste teorema (Hipótese
3.1b) e da compacidade de Ψ tem-se que supψE(q(xt,ψ)=E(q(xt,ψ o) para ψ o∈Ψ,
com a Hipótese 3.1a garante-se que E(q(xt,ψ o)) existe e é finita, concluindo-se
que supψE(q(xt,ψ))<∞.
Quanto às hipóteses 3.2, que se referem a identificabilidade única de ψo,
foram discutidas no Teorema 2.
Na demonstração da consistência dos estimadores, considerou-se como
hipótese que se trabalha com um processo ergódigo. Esta suposição e necessária
desde que utilizar os resultados de Pötscher e Prucha (1986) para provar que a lei
forte dos grandes números é satisfeita. Esta suposição poderia ser parcialmente
53
relaxada se utilizarmos os resultados de Wooldridge (1994) onde são
estabelecidas as condições de consistência e normalidade assintótica para os M-
estimadores, utilzando a lei uniformemente fraca dos grandes números (uniform
weak law of large numbers (UWLLN))
5.6 Prova do Teorema 4
Na prova de este Teorema utilizamos o Teorema 6.4 de White (1994), onde
condições gerais são estabelecidas para a normalidade assintótica de modelos não
lineares para séries temporais. A continuação comprova-se que as hipóteses de
dito Teorema são satisfeitas.
Hipóteses 2.1, 2.3, e 3.1 seguem da prova do Teorema 3(consistência).
Hipóteses 3.2’ e 3.6 seguem do fato de que G(xt; ) é continuamente
diferençiável ate ordem 2 no subespaço compacto Ψ.
Para checar as hipóteses 3.7a e 3.8a deve-se provar que [ ] ∞<∇ )(ψnQE e
que [ ] ∞<∇ )(2 ψnQE . No modelo RNGL2 o valor esperado do gradiente e a
Hessiana de Qn(ψ ) esta dada por:
[ ] ( )[ ]),(),(2)( ψψψ tttn xGyxGEQE −∇−=∇
e
[ ] ( )[ ]),(),(),(),(2)( 22 ψψψψψ tttttn xGyxGxGxGEQE −∇−∇′∇−=∇
respectivamente.
Hipóteses 3.7a e 3.8a seguem considerando a condição de normalidade
sobre os erros do modelo εt as propriedades da função G(xt; ψ), e o fato de
∇G(xt;ψ) e ∇2G(xt; ψ) conter termos ate ordem xi;txj;t, i,j=1,...,q. Seguindo o
mesmo raciocínio utilizado na prova da Hipótese 3.1a no Teorema 3, as hipóteses
3.7a e 3.8a são satisfeitas.
54
Hipótese 3.8b: Considerando a Hipótese 3, o fato da função G(xt; ψ) ser
continua e a convergência dominada. Seguindo o mesmo raciocínio utilizado na
prova da Hipótese 3.1b no Teorema 3 a hipótese 3.8b é satisfeita .
Hipótese 3.8c: Esta hipótese e obtida diretamente da prova do Teorema 3 e a
Lei forte dos grandes números de Pötscher e Prucha (1986).
Hipótese 3.9: Escrevendo a matriz An* de White para nosso modelo:
[ ] [ ]),(),(2)( ***2* ψψψ ttn xGxGEQEA ∇′∇−=∇=
é um O(1) em nosso modelo. Considerando a Hipótese 4, as propriedades da
função G(xt; ψ), e a identificabilidade do modelo provada no Teorema 2, obtemos
a não singularidade de An*.
Hipótese 6.1: Utilizando o Teorema 2.4 de White e Domowitz (1984) pode-
se provar que a seqüência: 2ξ′∇G(xt; ψ*) segue o Teorema Central do Limite
(TCL) para algum vetor ξ, tal que ξ′ξ=1. Hipóteses A(i) e A(iii) de White e
Domowitz (1984) são satisfeitas desde que εt é NID. De fato somente é necessário
que ( ) ∞<∆≤+δε 2tE algum δ>0, logo a hipótese de normalidade não é
necessária. Por outra parte, a Hipótese A(ii) cumpre-se com
[ ]),(),(4 **2 ψψξσ tt xGxGE ∇′∇′ . Adicionalmente, como qualquer transformação
de um processo mixing (mixing process) é um processo mixing (ver Lemma 2.1 in
White e Domowitz (1984)), 2ξ′∇G(xt; ψ*) é uma seqüência fortemente mixing
(strong mixing) e satisfaz o TCL. Utilizando a forma de Cramér-Wold ∇Q(xt; ψ)
também obedece o TCL com matriz de covariâncias
[ ] *2**2* 2),(),(4 nttn AxGxGEB σψψξσ =∇′∇′= a qual e O(1) e não singular.
55
Conclusões
Nesta tese foi apresentado um novo modelo não linear para séries temporais
baseado em Redes Neurais. O modelo, chamado de Redes Neurais Globais-Locais
Lineares (RNGL2) pode ser interpretado como um modelo de Mistura de
Especialistas Lineares. As propriedades estatísticas do modelo são discutidas em
detalhes, e foram enunciados e provados teoremas quanto a existência,
consistência e normalidade assintótica dos estimadores de mínimos quadrados e as
condições de identificabilidade do modelo. São discutidos também os
procedimentos de estimação, que utilizam o método da verossimilhança
concentrada para ganhar em eficiência computacional e também foi proposto um
procedimento para uma cuidadosa escolha dos valores inicias na estimação dos
parâmetros. Uma possível estratégia de modelagem para a seleção das variáveis
explicativas e a identificação do número de neurônios também foi discutida.
O desempenho do modelo RNGL2 na previsão de séries temporais foi
avaliado a través da modelagem de duas séries referencias na literatura de
modelos não lineares: a série de linces canadenses e a série de manchas solares.
Estas duas séries foram modeladas utilizando a estratégia de modelagem e os
procedimentos de estimação descritos nesta tese. Nestes exemplos o desempenho
do modelo proposto foi superior ao modelo linear e outras especificações não-
lineares, sugerindo que a teoria aqui desenvolvida e o modelo proposto poderia ser
uma ferramenta útil para os analistas de séries temporais.
As condições sob as quais o modelo proposto é estacionário (no sentido
assintótico) encontram-se atualmente sob estudo. E necessário ainda avaliar o
desempenho do modelo em um maior número de séries reais identificando as
dinâmicas que são modeladas com maior eficiência pelo RNGL2. Experimentos
com dados simulados são necessários para uma avaliação rigorosa da robustez do
processo de estimação. Uma extensão natural seria pesquisar as condições de
identificabilidade do modelo para especialistas não lineares e as condições para a
consistência e normalidade dos estimadores neste casso.
56
Referências Bibliográficas
Abu-Mostafa, Y. S., Atiya, A. F., Magdon-Ismail, M. e White, H. (2001). “Introduction to the special issue on neural networks in financial engineering”, IEEE Transactions on Neural Networks 12: 653–655.
Akaike, H. (1974). “A new look at the statistical model identification”, IEEE Transactions on Automatic Control 19: 716–723.
Auestad, B. e Tjøstheim, D. (1990). “Identification of nonlinear time series: First order characterization and order determination”, Biometrika 77: 669–687.
Bertsekas, D. P.(1995). Nonlinear Programming, Athena Scientific, Belmont, MA.
Box,G.E.P., Jenkins, G.M. e Reinsel, G.(1994) Time series Analysis: Forecasting and Control. Third Edition Prentice Hall, 1994.
Chen, R. (1995). “Threshold variable selection in open-loop threshold autoregressive models”, Journal of Time Series Analysis 16(5): 461–481.
Chen, R. e Tsay, R. S. (1993). “Functional coefficient autoregressive models”, Journal of the American Statistical Association 88: 298–308.
Cybenko, G. (1989). “Approximation by superposition of sigmoidal functions”, Mathematics of Control, Signals, and Systems 2: 303–314.
Fariñas, M. e Pedreira, C.E(2001a). “Missing Data Interpolation By Using Local-Global Neural Networks” International Journal of Engineering Intelligent Systems. (No EIS 309).
Fariñas, M., Pedreira, C.E.(2001b). “Mistura de Especialistas em Redes Neurais Locais-Globais” in Proceeding of SBAI 2001, Canela, 2001
Fariñas, M. Pedreira, C.E.(2002) “New Neural-Network Based Approach for Function Approximation” Paper submitted to IEEE, Transaction on Neural Network.
Fine, T. L. (1999). Feedforward Neural Network Methodology, Springer, New York.
Funahashi, K. (1989). “On the approximate realization of continuous mappings by neural networks”, Neural Networks 2: 183–192.
Gallant, A. R. e White, H. (1992). “On learning the derivatives of an unknown mapping with multilayer feedforward networks”, Neural Networks 5: 129–138.
Granger, C. W. J. e Teräsvirta, T. (1993). Modelling Nonlinear Economic Relationships, Oxford University Press, Oxford.
Härdle, W. (1990). Applied Nonparametric Regression, Cambridge University Press, Cambridge.
Härdle, W., L¨utkepohl, H. e Chen, R. (1997). “A review of nonparametric time series analysis”, International Statistical Review 65: 49–72.
Haykin, S(1999). Neural Networks – A Comprehensive Foundation, 2nd. Edition, Prentice Hall, New Jersey.
57
Hornik, K., Stinchombe, M. e White, H. (1989). “Multi-layer Feedforward networks are universal approximators”, Neural Networks 2: 359–366.
Hornik, K., Stinchombe, M. e White, H. (1990). “Universal approximation of an unknown mapping and its derivatives using multi-layer feedforward networks”, Neural Networks 3: 551–560.
Huber, P.J. (1967). “The Behavior of Maximum Likelihood Estimates Under Non Standard Conditions” in Proceedings of the Fifth Berkeley Symposium in Mathematical Statistics and Probability, Berkeley: University of California press, 221-233
Hwang, G. e Ding, A. (1997) “Prediction Intervals for Artificial Neural Networks” Journal of American Statistical Association, June 1997, Vol. 92, No. 438, Theory and Methods.
Jacobs, R. A. (1990). Task Decomposition Through Computation in a Modular Connectionist Architecture, Ph.d. thesis, University of Massachusetts.
Jacobs, R.A., Jordan, M.I,. Nowlan, S.J e Hinton,G.E. (1991). “Adaptative Misture of local Expert” Neural Computation, vol. 3, pp. 79-87
Jennrich, R. I. (1960)“Asymptotic properties of non-linear least squares estimators”. The Annals of Mathematical Statistics, 1969, Vol. 40, no. 2, 633-643
Jordan, M. I. e Jacobs, R. A. (1994). “Hierarchical mixtures of experts and the EM algorithm”, Neural Computation 6: 181–214.
Kainen, P.C., Kůrková, V, Kreinovich, V., Sirisengtksing, O.(1994) “Uniqueness of network parametrizations and faster learning” Neural, Parallel and Scientific Computations 2: 459-466.
Kuan, C. M. e White, H. (1994). “Artificial neural networks: An econometric perspective”. Econometric Reviews 13: 1–91.
Kůrková, V. e Kainen, P.C (1994). “Functionally equivalent feedforward neural networks” Neural Computation 6, 543-558
Kůrková, V., Šmíd, J.(1994) “An Incremental Architecture Algorithm for Feedforward Neural Nets” in Proceedings of IEEE Workshop Computer-Intensive Methods in Control and Signal Processing.
Leybourne, S., Nwebold, P. e Vougas, D.(1998) – “Unit roots and smooth transition”, Journal of the time series analysis 19: 83-97”
MacKay, D.J.C.(1992a). “Bayesian Interpolation”, Neural Computation 4: 415-447
MacKay, D.J.C.(1992b). “A practical bayesian framework for backpropagation networks”, Neural Computation 4: 448:472
Medeiros, M. C. e Veiga, A. (to appear). “Diagnostic checking in a flexible nonlinear time series model”, Journal of Time Series Analysis.
Medeiros, M..C., Teräsvirta, T. e Rech, G. (2002), “Building neural network models for time series: A statistical approach” Working Paper Series in Economics and Finance 508, Stockholm School of Economics.
58
Medeiros, M.C. e Veiga A. (2000a) “A hybrid linear-neural model for time series forecasting”, IEEE Transactions on Neural Networks, Vol.11, No. 6. 1402–14012
Medeiros, M.C. e Veiga A. (2000b) “A flexible coefficient smooth transition time series model” Working paper No. 360. Series in Economics and Finance 361, Stockholm School for Economics.
Nowlan, S.J e Hinton (1991). “Evaluation of Adaptative Mixture of Competing Experts”. Advances in Neural Information. Processing Systems, vol. 3, pp. 774-780, San Mateo, CA: Morgan Kaufmann.
Nowlan, S.J.(1990). “Maximum likelihood competitive learning Advances in Neural Information”. Processing Systems, vol. 2, pp. 574-582, San Mateo, CA:Morgan Kaufmann.
Ozaki, T. (1982). “The statistical analysis of perturbed limit cycle process using nonlinear time series models”, Journal of Time Series Analysis 3: 29–41.
Pedreira, C.E., Fariñas, M. e Pedroza, L.C(2001a). “Redes Neurais Locais-Globais – Uma Aplicação ao Problema de Dados Faltantes”. Learning and Non Linear Models. Revista da Sociedade Brasileira de Redes Neurais..
Pedreira, C.E., Pedroza, L. C. e Fariñas, M.(2001b). “Local-Global Neural Networks For Interpolation”. Proceeding of ICANNGA 2001– Praga, pp.55-58
Pötscher, B.M., Prucha, I.R.(1986) “A class of Parttially Adaptative one-step M-estimators for the non linear regression model with dependent observations” Journal of Econometrics 32, 219-251 North-Holland
Rech, G., Teräsvirta, T. e Tschernig, R. (2001). “A simple variable selection technique for nonlinear models”, Communications in Statistics, Theory and Methods 30: 1227–1241.
Schwarz, G. (1978). “Estimating the dimension of a model”, Annals of Statistics 6: 461–464.
Sussmann, H.J.(1992) “Uniqueness of the weights for minimal feedward nets with a given input-output map” Neural Networks 5, 589-594
Swanson, N. R. e White, H. (1995). “A model selection approach to assessing the information in the term structure using linear models and artificial neural networks”, Journal of Business and Economic Statistics 13: 265–275.
Swanson, N. R. e White, H. (1997a). “Forecasting economic time series using flexible versus fixed specification and linear versus nonlinear econometric models”, International Journal of Forecasting 13: 439–461.
Swanson, N. R. e White, H. (1997b). “A model selection approach to real-time macroeconomic forecasting using linear models and artificial neural networks”, Review of Economic and Statistics 79: 540–550.
Tcherning, R. e Yang, L. (2000). “Nonparametric lag selection for time series”, Journal of Time Series Analysis 21: 457–487.
Teräsvirta, T. (1994). “Specification, estimation, and evaluation of smooth transition autoregressive models”, Journal of the American Statistical Association 89(425): 208–218.
59
Tjøstheim, D. e Auestad, B. (1994). “Nonparametric identification of nonlinear time series – selecting significant lags”, Journal of the American Statistical Association 89(428): 1410–1419.
Tong, H. (1990). Non-Linear Time Series: A Dynamical System Approach, Vol 6 de Oxford Statistical Science Series, Oxford University Press, Oxford.
Trapletti, A , Leisch, F. e Hornik, K.(2000) “Stationary and integrated autoregressive neural network processes”. Neural Computation 12: 2427-2450
Tsay, R. (1989). “Testing and modeling threshold autoregressive processes”, Journal of the American Statistical Association 84: 431–452.
Van Dijk, D., Teräsvirta, T. e Franses, P. H. (2002). “Smooth transition autoregressive models - a survey of recent developments”, Econometric Reviews 21: 1–47.
Vieu, P. (1995). “Order choice in nonlinear autoregressive models”, Statistics 26: 307–328.
Weigend, A. S., Mangeas, M. e Srivastava, A. N. (1995). “Nonlinear gated experts for time series: Discovering regimes and avoiding overfitting”, International Journal of Neural Systems 6: 373–399.
Weigend, A., Huberman, B. e Rumelhart, D. (1992). “Predicting sunspots and exchange rates with connectionist networks”, in M. Casdagli and S. Eubank (eds), Nonlinear Modeling and Forecasting, Addison-Wesley.
White, H. (1981) “Consequences and Detections of Misspecified Nonlinear Regression Models” Journal of American Statistical Association, Vol 75, No. 374. 419–433.Theory and Methods Sections
White, H. (1990). “Connectionist nonparametric regression: Multilayer feedforward networks can learn arbitrary mappings”, Neural Networks 3: 535–550.
White, H. (1994). Estimation, Inference and Specification Analysis. Cambridge, MA: Cambridge University Press.
White, H. e Domowitz, I. (1984). “Nonlinear regression with dependent observations”, Econometrica 52: 143–162.
Wooldridge, J. M. (1994). “Estimation and inference for dependent process, in R”. F. Engle and D. L. Mc-Fadden (eds), Handbook of Econometrics, Vol. 4, Elsevier Science, pp. 2639–2738.
Xia, Y. e Li, W.K.(1999). “On single index coefficient regression models”, Journal of the American Statistical Association 94 (448): 1275-1285.
Yao, Q. e Tong, H. (1994). “On subset selection in non-parametric stochastic regression”, Statistica Sinica 4: 51–70.