universidade federal do rio grande do sul … · 2009-07-29 · transformado num modelo linear...
TRANSCRIPT
1Parte do Exame de Qualificação apresentado pelo primeiro autor ao Departamento de Zootecnia da Universidade Federal de Viçosa. 2Examinador 3Orientador
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL
FACULDADE DE AGRONOMIA
DEPARTAMENTO DE ZOOTECNIA
MODELO NORMAL NÃO-LINEAR1
AUTORES:
Prof. José Braccini Neto. Departamento de Zootecnia - UFRGS
Prof. Adair José Regazzi2. Departamento de Informática - UFV
Prof. Martinho de Almeida e Silva3. Departamento de Zootecnia - UFMG
Porto Alegre - RS
Janeiro - 2004
2
CONTEÚDO
1. Introdução ............................................................................................................ 3
2. Estimação de parâmetros..................................................................................... 3
3. Testes de hipóteses ........................................................................................... 23
3.1. Teste de Wald ................................................................................................. 23
3.2. Teste da razão de verossimilhança................................................................. 26
4. Intervalos de confiança ...................................................................................... 29
5. Técnicas de diagnóstico..................................................................................... 31
5.1 Matriz de projeção ............................................................................................ 31
5.2 Influência .......................................................................................................... 33
6. Considerações finais .......................................................................................... 38
7. Referências bibliográficas .................................................................................. 39
3
MODELO NORMAL NÃO-LINEAR
1. INTRODUÇÃO
A importância do estudo do tema "modelo normal não-linear" pode ser
constatada na leitura do livro de RATKOWSKY (1983), onde o autor define vários
modelos aplicados a ciências biológicas, bem como em outras áreas, e discute sob
vários aspectos.
O objetivo deste trabalho é fornecer um material didático para leitores que
farão contato com este assunto pela primeira vez. Cada tópico será acompanhado
de um exemplo para facilitar o entendimento teórico. Procurar-se-á apresentar o
assunto sem saltar etapas, mas quando isto não ocorrer chamar-se-á atenção do
leitor para livros textos complementares.
Este texto foi baseado em RATKOWSKY (1983), NETER et al. (1985),
SOUZA (1986), GALLANT (1987) e CORDEIRO & PAULA (1989).
2. ESTIMAÇÃO DE PARÂMETROS
Primeiramente, vamos definir modelos lineares, modelos lineares
intrinsicamente e modelos não-lineares antes de mostrar os processos de
estimação de parâmetros.
Modelos Lineares
São modelos nos quais os parâmetros aparecem linearmente. Por exemplo,
um modelo de regressão polinomial com duas variáveis independentes:
(1) Y X X X X X Xi i i i i i i i
= + + + + + +β β β β β β ε0 1 1 2 1
2
3 2 4 2
2
5 1 2
Observe que, apesar de alguns termos serem quadráticos, as variáveis
independentes são lineares em seus parâmetros.
4
Modelos Lineares Intrinsicamente
Existem modelos, que embora sejam não-lineares em seus parâmetros,
podem ser transformados de modo que seus parâmetros apareçam linearmente.
Por exemplo, o modelo exponencial:
(2) ( )[ ]Y Xi i i= γ γ ε0 1exp
é não-linear em seus parâmetros γ 0 e γ 1. Entretanto, este modelo pode ser
transformado num modelo linear usando a transformação logarítmica:
(3) log log loge i e i e iY X= + +γ γ ε0 1
Fazendo:
log
log
log
'
'
e i i
e
e i i
Y Y===
=
γ βγ β
ε ε
0 0
1 1
nós podemos escrever o modelo (3) na forma usual de um modelo linear:
(4) Y Xi i i' '= + +β β ε0 1
Nós dizemos que o modelo (2) é um modelo linear intrinsicamente por que
ele pode ser expresso numa forma linear por meio de uma transformação. Deve-se
observar que se os erros ε i no (2) são normalmente distribuídos, os erros εi' no (4)
não serão normalmente distribuídos. Portanto, é importante fazer um estudo de
análise de resíduos para este modelo linearizado.
Modelos não-lineares
São modelos que tem pelo menos um parâmetro aparecendo não-
linearmente (o parâmetro aparece como expoente, ou multiplicado ou dividido por
outro parâmetro, ou em funções transcedentes como as exponenciais, logarítmicas
e trigonométricas) e que não podem ser linearizados por meio de uma
transformação. Por exemplo, o modelo (2) com o erro aditivo:
(5) ( )[ ]Y Xi i i= +γ γ ε0 1exp
5
é intrinsicamente não-linear por que não existe nenhuma transformação que
transforme este modelo num modelo linear.
ESTIMADORES DE MÍNIMOS QUADRADOS
Modelos Lineares
Suponha que há razão para acreditar, do conhecimento acerca do sistema
ou processo, que os dados obtidos podem ser representados pelo seguinte modelo
de regressão linear que passa pela origem:
(6) Y Xt t t= +β ε
O estimador de quadrados mínimos de β é obtido por minimizar a soma de
quadrados dos desvios do Yt do seu valor esperado, isto é, por minimizar
(7) ( )S Y Xt tt
n
( )β β= −=
∑ 2
1
Escrevendo S no lugar de S( )β para simplificar a notação, o valor mínimo de S
pode ser obtido por diferenciar (7) com respeito a β , colocando a derivada igual a
zero e resolvendo para β , esta solução é denotada por �
β para indicar que é o
estimador de quadrados mínimos de β . Assim,
( )∂∂β β
SY X Xt t t= − − =∑2 0
conduz ao seguinte:
(8) �
β = ∑∑
X Y
Xt t
t2
Como os X t são assumidos serem sem erro e não serem variáveis aleatórias, �
β é
uma combinação linear das variáveis aleatórias Yt . Se os Yt são assumidos serem
distribuídos normalmente acerca de seus valores médios βX t com variância finita
σ 2 (isto é, a variância do εt ), segue que �
β é também normalmente distribuído.
6
Além disso, a esperança de �
β é β , o que significa que �
β é não-viesado para β , e
a variância de �
β ,
VarX t
(�
)βσ
= ∑2
2
é a variância mínima possível de qualquer estimador linear não-viesado para β .
Assumindo que os εt são variáveis aleatórias independentes e identicamente
normal distribuídas (iidN) com média zero e variância finita σ 2 , os estimadores de
quadrados mínimos de parâmetros desconhecidos num modelo linear são também
estimadores de máxima verossimilhança.
Modelos não-lineares
Suponha que uma dada situação pode ser representada pelas seguintes
equações de regressão:
(9) ( )y f x e t nt t t= + =, , ,...,θ 0 1 2
onde ( )f x,θ é a função resposta conhecida, θ 0 é um vetor p-dimensional de
parâmetros desconhecidos, e o et representa os erros experimentais. Escreve-se
θ 0 para enfatizar que é o verdadeiro, mas desconhecido, valor do vetor parâmetro;
θ é usado para denotar exemplos quando o vetor parâmetro é tratado como uma
variável, como por exemplo, na diferenciação. Os erros são assumidos serem
independentemente e identicamente distribuídos com média zero e variância
desconhecida σ 2 . A seqüência de variáveis independentes ( )x t é tratada como
uma seqüência de constantes conhecidas fixas e não como variáveis aleatórias. Em
modelos não-lineares o número de variáveis independentes não está diretamente
relacionado ao número de parâmetros.
Exemplo:
Seja a seguinte função resposta
( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43 .
O vetor da variável independente é
7
x
x
x
x
=
1
2
3
e o vetor paramétrico é
θ
θθθθ
=
1
2
3
4
.
O conjunto de respostas observadas e variáveis independentes para este modelo
encontram-se na Tabela 1.
Tabela 1 - Dados do exemplo
t Y X1 X2 X3 1 0,98610 1 1 6,28 2 1,03848 0 1 9,86 3 0,95482 1 1 9,11 4 1,04184 0 1 8,43 5 1,02324 1 1 8,11 6 0,90475 0 1 1,82 7 0,96263 1 1 6,58 8 1,05026 0 1 5,02 9 0,98861 1 1 6,52 10 1,03437 0 1 3,75 11 0,98982 1 1 9,86 12 1,01214 0 1 7,31 13 0,66768 1 1 0,47 14 0,55107 0 1 0,07 15 0,96822 1 1 4,07 16 0,98823 0 1 4,61 17 0,59759 1 1 0,17 18 0,99418 0 1 6,99 19 1,01962 1 1 4,39 20 0,69163 0 1 0,39 21 1,04255 1 1 4,73 22 1,04343 0 1 9,42 23 0,97526 1 1 8,90 24 1,04969 0 1 3,02 25 0,80219 1 1 0,77 26 1,01046 0 1 3,31 27 0,95196 1 1 4,51 28 0,97658 0 1 2,65 29 0,50811 1 1 0,08 30 0,91840 0 1 6,11
Fonte: Gallant (1975d) citado por GALLANT (1987).
8
As variáveis independentes correspondem a um delineamento com
tratamento controle que usa material experimental cuja idade afeta a resposta numa
forma exponencial. Isto é, a primeira observação
[ ]x1 1 1 6 28= ; ; ,'
representa o material experimental com idade de x3 6 28= , meses que foi
aleatoriamente alocada ao grupo tratamento e que tem resposta esperada
( )f x e10
10
20
40 6 28 3
0
, ,θ θ θ θ θ= + + .
Similarmente, a segunda observação
[ ]x2 0 1 9 86= ; ; ,'
representa a locação do material que atingiu a idade de x3 9 86= , ao grupo controle,
com resposta esperada
( )f x e20
20
40 9 863
0
, ,θ θ θ= + .
O parâmetro θ10 é o efeito do tratamento.
O modelo em (9) pode ser escrito na forma de vetor
( )y f e= +θ 0
onde
y
y
y
yn
=
1
2�
( )
( )( )
( )f
f x
f x
f xn
θ
θθ
θ
=
1
2
,
,
,
�
9
e
e
e
en
=
1
2� .
Da mesma forma que ocorre em modelos lineares, o estimador de quadrados
mínimos de θ é obtido por minimizar a soma de quadrados dos desvios ( )SSE θ dos
Yt observados dos valores preditos ( )f xt ,θ , isto é, por minimizar
( ) ( )[ ]SSE y f xt tt
n
θ θ= −=∑ ,
1
2
ou, em notação de vetor
( ) ( ) ( )[ ] ( )[ ]SSE y f y f y fθ θ θ θ= − = − −2
'
onde ( )y f− θ é a norma euclidiana de ( )y f− θ .
Para que possamos entender o processo de derivação para obtenção dos
estimadores de quadrados mínimos, vamos apresentar a notação utilizada para
cálculo de derivadas de matrizes.
Fazendo ( )f θ ser uma função vetor coluna n por 1 de um argumento p-
dimensional θ . O Jacobiano de
( )
( )( )
( )
f
f
f
fn n
θ
θθ
θ
=
1
2
1
�
é uma matriz n por p
( ) ( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
F f
f f f
f f f
f f fn
p
p
n np
n
p
θ ∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ ∂
∂θ θ ∂∂θ θ
= ′ =
11
21 1
12
22 2
1 2
�
�
� � �
�
.
10
Fazendo ( )′h θ ser uma função vetor 1 por n
( ) ( ) ( ) ( )[ ]′ =h h h hnθ θ θ θ1 2 � .
Então,
( )
( ) ( ) ( )
( ) ( ) ( )
( ) ( ) ( )
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
∂∂θ θ
′ =
h
h h h
h h h
h h hp
n
n
p p pn
n
11
12
1
21
22
2
1 2
�
�� � �
�
.
Se ( )f θ e ( )′h θ são como acima, então
( ) ( ) ( ) ( ) ( ) ( )∂∂θ θ θ θ
∂∂θ θ θ
∂∂θ θ′ ′ = ′ ′
+ ′ ′
h f h f f h
n p n p1 1 .
Assim, a derivada da soma de quadrados dos desvios em relação a ′θ é
( ) ( )[ ] ( )[ ]( )[ ] ( )[ ] ( )[ ] ( )[ ]
( )[ ] ( )
( )[ ] ( )
∂∂θ θ
∂∂θ θ θ
θ∂
∂θ θ θ∂
∂θ θ
θ∂
∂θ θ
θ θ
′ = ′ −′
−
= −′
′ − + −′
′ −
= −′
− ′
= − −′
SSE y f y f
y f y f y f y f
y f f
y f F
2
2
e igualando a zero teremos o seguinte sistema de equações normais
( ) ( )[ ]′ − =F y f� �
θ θ Φ
( ) ( ) ( )( ) ( ) ( )
( ) ( ) ( )
( )( )
( )
∂∂θ
θ ∂∂θ
θ ∂∂θ
θ
∂∂θ
θ∂
∂θθ
∂∂θ
θ
∂∂θ
θ∂
∂θθ
∂∂θ
θ
θθ
θ
��
��
��
��
��
��
��
��
��
�
�
�
1
1
1
2
1
21
22
2
1 2
1
2
1
2
f f f
f f f
f f f
y
y
y
f
f
f
n
n
p p pn
n n
�
�� � �
�
� �
−
=
0
0
0
� .
Estas equações normais são não-lineares nos estimadores dos parâmetros e em
geral não apresentam fórmulas explicitas sendo as estimativas obtidas por meio de
11
técnicas numéricas denominadas técnicas de otimização não-linear ou
programação não-linear.
Vamos ilustrar por meio do nosso exemplo as etapas realizadas até aqui.
O modelo é dado por ( )y f e= +θ 0
Aplicação direta das definições de y e ( )f θ produz
y
y
y
yn
=
=
1
2
0 98610
1 03848
0 91840
� �
,
,
,
( )
( )( )
( )f
f x
f x
f x
e
e
en
θ
θθ
θ
θ θ θθ θ
θ θ
θ
θ
θ
=
=
+ ++
+
1
2
1 2 46 28
2 49 86
2 46 11
3
3
3
,
,
,
,
,
,
� � .
Logo,
( ) ( )∂∂θ θ
∂∂θ θ θ θ θ
1 11 1 2 2 4 1
3 3f x x x e xx, = + + =
( ) ( )∂∂θ θ
∂∂θ θ θ θ θ
2 21 1 2 2 4 2
3 3f x x x e xx, = + + =
( ) ( )∂∂θ θ
∂∂θ θ θ θ θθ θ
3 31 1 2 2 4 4 3
3 3 3 3f x x x e x ex x, = + + =
( ) ( )∂∂θ θ
∂∂θ θ θ θ θ θ
4 41 1 2 2 4
3 3 3 3f x x x e ex x, = + + =
o Jacobiano de ( )f θ é
( )F
e e
e e
e e
θ
θθ
θ
θ θ
θ θ
θ θ
=
30
46 28 6 28
49 86 9 86
46 11 6 11
4
1 1 6 28
0 1 9 86
0 1 6 11
3 3
3 3
3 3
( , )
( , )
( , )
, ,
, ,
, ,
� � � � .
12
As equações normais são dadas por
( ) ( )[ ]4 30 30 1 30 1 4 1′ − =F y f� �
θ θ Φ
1 0 0
1 1 1
6 28 9 86 6 11
0 98610
1 03848
0 918404
6 284
9 864
6 11
6 28 9 86 6 11
1 2 46 28
2 49 86
2 46 11
3 3 3
3 3 3
3
3
3
�
�
�
�
� �θ θ θ
θ θ θθ θ
θ θ
θ θ θ
θ θ θ
θ
θ
θ
( , ) ( , ) ( , )
,
,
,
, , ,
, , ,
,
,
,
e e e
e e e
e
e
e
−
+ ++
+
=
0
0
0
0
PROCEDIMENTOS DE OTIMIZAÇÃO NÃO-LINEAR
Antes de apresentarmos o método Gauss Newton para obtenção das
estimativas dos parâmetros é importante conhecermos alguns conceitos básicos
importantes.
Em otimização não-linear, uma questão importante é a da localização de
pontos globais ou absolutos. Porém, nenhum dos algoritmos existentes pode
garantir convergência para um ótimo global. Entretanto, uma maneira de tentar
prevenir possíveis soluções locais ou relativas é através da escolha de valores
iniciais satisfatórios. Na prática, não devemos nos contentar, pelo menos de
imediato, com o valor obtido através do processo, mas sim realizar vários testes
partindo-se de diversos valores iniciais diferentes, e comparar os resultados; esse
procedimento ajuda a prevenir possíveis soluções locais do problema. SOUZA
(1986) dá algumas sugestões de como proceder nas aplicações.
Aspectos Gerais de um Algoritmo
Um algoritmo iterativo é um procedimento que partindo de um ponto inicial
especificado ( ) ( )θ θ θ01
0 0= ( ) ( ),..., p , gera uma seqüência de pontos θ ( )1 , θ ( )2 , ..., onde
cada elemento representa uma estimativa do ponto ótimo θ * da função objetivo
(função a ser minimizada), e o que se espera de um bom algoritmo, é que ao ser
aplicado ao problema de interesse convirja rapidamente para θ * .
Um dos aspectos importantes de um algoritmo é a sua taxa de convergência.
Mesmo que seja possível provar teoricamente que uma seqüência converge para
13
um ponto ótimo, esse método será eficiente somente se a convergência ocorrer
com certa rapidez, isto é, se a taxa de convergência for relativamente alta.
Outro aspecto importante de qualquer algoritmo é o teste de convergência,
ou, critério de parada das interações. Um teste bastante utilizado, segundo SOUZA
(1986), é admitir convergência na k-ésima iteração se:
SSE SSEk kθ θ ε( ) ( )−
−
<1
onde ε é uma constante fixada arbitrariamente.
Método de Gauss-Newton
Existem vários métodos para resolver problemas de mínimos quadrados não-
lineares. Para exemplificar usaremos o método de Gauss-Newton por ser um dos
métodos mais conhecidos.
O método de Gauss-Newton , também chamado de método da linearização,
usa a série de Taylor para aproximar o modelo não-linear com termos lineares e
então emprega o método de quadrados mínimos ordinários para estimar os
parâmetros.
O objetivo da série de Taylor é aproximar uma função por meio de uma
função polinomial. No caso escalar, onde ( )f x e x são números reais, a série de
Taylor é dada por
( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )( ) ( )f x f x f x x x
f xx x
f xn
x xf
nx xk k k
kk
nk
k
nn
k
n= + ′ − +
′′− + + − + + −
++
2 12
11
! ! !
( ) ( )
�
α
onde x xk≤ ≤α e ( ) ( )′ =f xd
d xf xk
kk ; o último termo representa o erro de
aproximação de ( )f x pelos n+1 primeiros termos do lado direito. Observe que se
tomarmos a aproximação linear (usando os dois primeiros termos do lado direito)
teremos
( ) ( ) ( )( )f x f x f x x xk k k≅ + ′ − .
Para o caso de sistemas, a série de Taylor é dada por
( ) ( )( ) ( )( ) ( )( )f f F Rk k kθ θ θ θ θ= + − +
14
onde ( )θ k é o vetor aproximação na k-ésima iteração, ( )( ) ( )( )( )F fk
kkθ
∂∂θ
θ=′
e R
representa o erro da aproximação linear.
O leitor poderá conhecer melhor a série de Taylor lendo o capítulo 11 do livro
de cálculo de HOFFMANN (1990).
O método de Gauss-Newton começa com valores iniciais dos parâmetros θ1 ,
θ2 , ..., θp denotados por ( )θ10 , ( )θ2
0 , ..., ( )θp0 . SOUZA (1986) apresenta no capítulo 3
de sua tese algumas técnicas de obtenção de valores iniciais.
Uma vez que os valores iniciais dos parâmetros tem sido obtidos, aproxima-
se a função resposta ( )f θ por meio da expansão da série de Taylor até a 1a ordem
acerca dos valores iniciais ( )θi0 (i = 1, 2, ..., p), isto é,
(10) ( ) ( )( ) ( )( ) ( )( )f f Fθ θ θ θ θ≅ + −0 0 0
onde ( )( ) ( )( )( )F fθ
∂∂θ
θ00
0=′
.
Assim, o problema de minimizar
( ) ( )[ ] ( )[ ] ( )SSE y f y f y fθ θ θ θ= − − = −'2
passa a ser o de minimizar a função
( ) ( )( ) ( )( ) ( )( )SSE y f Fθ θ θ θ θ= − − −0 0 02.
Fazendo-se ( )( ) ( )y f E− =θ 0 0 e ( ) ( )θ θ θ− =0 0∆ temos que
( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )[ ] ( ) ( )( ) ( )[ ]SSE E F E F E Fθ θ θ θ θ θ θ= − = −′
−0 0 02
0 0 0 0 0 0∆ ∆ ∆
( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )( ) ( )SSE E E E F F E F Fθ θ θ θ θ θ θ θ θ= ′ − ′ − ′ ′ + ′ ′0 0 0 0 0 0 0 0 0 0 0 0∆ ∆ ∆ ∆ .
Antes de calcular a derivada de ( )SSE θ em relação a ( )∆θ 0 , vamos rever
algumas regras de derivação de matrizes apresentadas no capítulo 12 do livro de
SEARLE (1982).
Seja ′a um vetor linha, x um vetor coluna e A uma matriz qualquer, temos
que
15
( ) ( )∂∂
∂∂x
a xx
x a a′ = ′ =
( )∂∂x
x A A′ = e ( )∂∂x
Ax A= ′
( )∂∂x
x Ax Ax A x′ = + ′ e se A A= ′ teremos ( )∂∂x
x Ax Ax′ = 2 .
Então, a derivada de ( )SSE θ em relação a ( )∆θ 0 é dada por:
( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( )( ) ( )∂∂ θ
θ θ θ θ θ θ∆
Φ ∆0
0 0 0 0 0 0 02SSE F E F E F F= − ′ − ′ + ′
( ) ( ) ( )( ) ( ) ( )( ) ( )( ) ( )∂∂ θ
θ θ θ θ θ∆
∆0
0 0 0 0 02 2SSE F E F F= − ′ + ′
( ) ( ) ( )( ) ( )( ) ( ) ( )( ) ( )( )∂∂ θ
θ θ θ θ θ∆
∆0
0 0 0 0 02SSE F F F E= ′ − ′ .
Fazendo ( ) ( )∂∂ θ
θ∆
Φ0
SSE = , obtemos o sistema de equações normais
( )( ) ( )( ) ( ) ( )( ) ( )′ = ′F F F Eθ θ θ θ0 0 0 0 0∆
onde ( )E 0 desempenha o papel da variável dependente y e ( )( )F θ 0 o da matriz X
dos modelos lineares. Em modelos lineares os resíduos são ortogonais as colunas
de X, isto é,
′ =X e Φ .
Em modelos não-lineares os resíduos são ortogonais as colunas do Jacobiano de
( )f θ avaliado à θ θ=�
, isto é,
( ) ( )[ ]′ − =F y f� �
θ θ Φ .
Para o nosso exemplo,
16
( )( ) ( )( ) ( ) ( )( ) ( )′ = ′F F F Eθ θ θ θ0 0 0 0 0∆
1 0 0
1 1 1
6 28 9 86 6 1146 28
49 86
46 11
6 28 9 86 6 11
3 3 3
3 3 3
�
�
�
�
θ θ θθ θ θ
θ θ θ
( , ) ( , ) ( , ), , ,
, , ,
e e e
e e e
( )
( )
( )
( )
1 1 6 28
0 1 9 86
0 1 6 11
46 28 6 28
49 86 9 86
46 11 6 11
1 10
2 20
3 30
4 40
3 3
3 3
3 3
θθ
θ
θ θθ θθ θθ θ
θ θ
θ θ
θ θ
( , )
( , )
( , )
, ,
, ,
, ,
e e
e e
e e
� � � �
−−−−
=
1 0 0
1 1 1
6 28 9 86 6 11
0 98610
1 03848
0 918404
6 284
9 864
6 11
6 28 9 86 6 11
1 2 46 28
2 49 86
2 46 11
3 3 3
3 3 3
3
3
3
�
�
�
�
� �θ θ θ
θ θ θθ θ
θ θ
θ θ θ
θ θ θ
θ
θ
θ
( , ) ( , ) ( , )
,
,
,
, , ,
, , ,
,
,
,
e e e
e e e
e
e
e
−
+ ++
+
.
Se ( )( )F θ 0 apresentar posto coluna completo, o valor de ( )∆θ 0 que minimiza
( )SSE θ é:
( ) ( )( ) ( )( )( ) ( )( ) ( )∆θ θ θ θ0 0 01
0 0= ′ ′−
F F F E .
Utilizando estas estimativas de quadrados mínimos obtém-se o valor de ( )θ 1
por meio de
( ) ( ) ( )θ θ θ1 0 0= + ∆ .
Se o método está trabalhando efetivamente na primeira iteração, ( )( )SSE θ 1
seria menor que ( )( )SSE θ 0 e assim ( )θ 1 seriam melhores estimativas.
Deve-se observar que as estimativas ( )θ 1 não são estimativas de quadrados
mínimos para o modelo não-linear pois o modelo (10) é somente uma aproximação
para o modelo não-linear. O método de Gauss-Newton portanto repete o
procedimento com ( )θ 1 agora como valores iniciais. Isto produz um novo conjunto
de estimativas, denotadas por ( )θ 2 , e uma nova soma de quadrados ( )( )SSE θ 2 . O
processo iterativo é continuado até a diferença entre ( )( )SSE kθ −1 e ( )( )SSE kθ torna-
se negligível.
Agora considere o uso do método de Gauss-Newton num modelo linear de
regressão. Tal modelo pode ser escrito como
y X= +θ ε
17
onde X é a matriz (nxp) das variáveis regressoras. Para o modelo acima, a matriz
Jacobiana é
( )F Xθ = .
Começando com qualquer conjunto arbitrário de estimativas iniciais dos parâmetros
( )θ 0 , o próximo vetor de estimativas ( )θ 1 é
( ) ( ) ( ) ( )( )θ θ θ1 0 1 0= + ′ ′ −−X X X y X
( ) ( ) ( ) ( ) ( )θ θ θ1 0 1 1 0= + ′ ′ − ′ ′− −X X X y X X X X
( ) ( ) ( ) ( )θ θ θ1 0 1 0= + ′ ′ −−X X X y I
( ) ( ) ( ) ( )θ θ θ1 0 1 0= + ′ ′ −−X X X y
( ) ( )θ 1 1= ′ ′−X X X y .
Logo o método de Gauss-Newton, para um modelo linear, converge para os
estimadores de quadrados mínimos numa única iteração de qualquer vetor inicial
( )θ 0 .
Propriedades dos Estimadores
Um fato importante é que o estimador de quadrados mínimos �
θ de θ em (9)
não tem propriedade possuídas por �
β no modelo linear (6). Somente
assintoticamente, que é, quando o tamanho da amostra aumenta para infinito, as
propriedades de �
θ aproximam as propriedades de �
β .
Para amostras finitas, mesmo que yt seja normalmente distribuído acerca de
sua média ( )f x,θ com algum variância desconhecida finita σ 2 para todo t , t =1, 2,
..., n (de modo que o estimador de quadrados mínimos �
θ é também um estimador
de máxima verossimilhança de θ 0 ), �
θ não é uma combinação linear dos yt e logo
em geral não é normalmente distribuído, nem é não-viesado para θ 0 e nem é um
estimador de variância mínima. Assim, o estimador de quadrados mínimos de um
parâmetro num modelo não-linear tem propriedades desconhecidas para amostras
de tamanho finito. Sob estas circunstâncias a teoria assintótica nos diz que o
18
estimador de máxima verossimilhança torna-se mais e mais não-viesado, mais e
mais normalmente distribuídos, e aproxima-se de uma variância mínima a medida
que o tamanho da amostra torna-se cada vez maior.
Infelizmente, não se sabe na prática qual o tamanho que a amostra deveria
ter para que se aproximasse das propriedades assintóticas. Isto se deve ao fato de
que há alguns modelos não-lineares para os quais as propriedades assintóticas são
uma boa aproximação mesmo para amostras pequenas, enquanto há outros
modelos onde as propriedades assintóticas são pobremente aproximadas mesmo
para o que seria considerado ser amostras grandes em termos práticos.
Entretanto, se o estimador de quadrados mínimos de um parâmetro de um
modelo não-linear é somente pouco tendencioso com uma distribuição próxima
àquela de uma distribuição normal e com uma variância excedendo um pouco o
limite da variância mínima, parece razoável falar do estimador como ''comportando-
se próximo ao linear" já que suas propriedades são próximas daquelas esperadas
de um modelo linear, ou falar que o modelo não-linear apresenta um
comportamento próximo do linear.
Então, o objetivo passa a ser o de avaliar se o modelo não-linear de nosso
interesse apresenta um comportamento próximo do linear, isto é, verificar se as
propriedades assintóticas são aplicáveis para o modelo, mesmo em amostras
pequenas.
Uma maneira seria observar a convergência do algoritmo de Gauss-Newton
na obtenção das estimativas dos parâmetros. Assim, se esse algoritmo, partindo de
um ponto inicial arbitrário ( )θ 0 , convergir rapidamente para um valor �
θ , e se �
θ for
bem distante de ( )θ 0 , então isso indica que o modelo tem um comportamento
próximo do linear (lembre-se que o método de Gauss-Newton, para um modelo
linear, converge para os estimadores de quadrados mínimos numa única iteração
de qualquer vetor inicial ( )θ 0 ).
Existem procedimentos sistemáticos para avaliar mais precisamente a não-
linearidade do modelo, como a medida de Box e as medidas de curvatura de Bates
& Watts. Além disso, pode-se realizar estudos com base em simulação que
19
segundo RATKOWSKI (1983) é uma das melhores maneiras de avaliar as
propriedades dos estimadores.
Exemplo:
Utilizou-se os pacotes computacionais SAEG e SAS para calcular as
estimativas de mínimos quadrados para os dados que encontram-se na Tabela 1. O
método de otimização empregado em ambos os programas foi o método de Gauss-
Newton modificado. As saídas dos programas SAEG e SAS encontram-se,
respectivamente, na Figura 1 e 2.
Os valores iniciais para o começo das iterações são
( )θ 0
0 04866
1 03884
0 73792
0 51362
=
−
−−
,
,
,
,
,
valores estes determinados por GALLANT (1987).
As estimativas obtidas são
�
,
,
,
,
θ =
−
−−
0 02588970
1 01567967
1115769714
0 50490286
.
A soma de quadrados residual é
( )SSE�
,θ = 0 03049554
e a estimativa da variância é
( )
sSSE
n p2 0 00117291= − =
�
,θ
.
Deve-se observar que o programa SAEG utiliza o procedimento para
modelos de regressão não-lineares e não para modelos não-lineares, assim os
graus de liberdade da regressão, a soma de quadrados devido a regressão e
conseqüentemente o quadrado médio não estão corretos para o nosso exemplo.
20
Regr egn Y FU NCAO T 1*X 1+T2* X2+T4* EXP(T 3* X3) Ampl i t udes ( T1=- 1, 1, - 0. 04866) (T 2=0, 2,1 . 03884) (T 3=- 2, 1, - 0. 73792) (T 4=- 1, 1 , - 0. 51362) Tol er ânci a = . 0000100 I t er ações P er mit i das = 100 I t er ações E xecut adas = 5 Númer o de O bserv ações = 30 Númer o de P ar âmet r os = 4 P a r â m e t r o s F o r n e c i d o s Par âmet ro s Li mi te s Li mit es Es t i mat i vas I nf er i or es Super i ore s I ni c ia i s T1 - 1. 0000 1. 0000 - . 0487 T2 . 0000 2.0 000 1. 0388 T4 - 1. 0000 1. 0000 - . 5136 T3 - 2. 0000 1. 0000 - . 7379 P a r â m e t r o s d a R e g r e s s ã o Par âmet ro s Coef i c i ente s Desv i os T Si gni f. T1 - . 02590 .0 1262 - 2. 052 . 02520 T2 1. 01570 . 00994 102.1 87 . 00000 T4 - . 50478 .0 2564 - 19. 684 . 00000 T3 - 1. 11467 . 16340 - 6. 822 . 00000 A n á l i s e d e V a r i â n c i a Font es de V ar i aç ão GL Soma d e Quadr ados Quadr ados M édi os F Si gnif . DEVI DO A REGRESSAO 3 . 6884574 . 229486 195. 66 . 00000 RESI DUO 26 . 0304955 . 001173 R2 = . 958
Fi gur a 1 . S aí da d o p r ogr ama S AEG.
21
Non- Li near L east S quar es I t era t i ve P has e Dependent V ar i able Y Met hod: G auss - Newt on I t er T1 T2 T3 S um of S quar es T4 0 - 0. 048660 1. 038840 - 0. 737920 0. 527493 - 0. 813620 1 - 0. 024329 1. 009859 - 0. 913283 0. 036388 - 0. 491402 2 - 0. 025309 1. 014201 - 1. 101293 0. 030562 - 0. 502378 3 - 0. 025884 1. 015663 - 1. 116173 0. 030496 - 0. 504937 4 - 0. 025890 1. 015680 - 1. 115680 0. 030496 - 0. 504901 5 - 0. 025890 1. 015680 - 1. 115698 0. 030496 - 0. 504903 6 - 0. 025890 1. 015680 - 1. 115697 0. 030496 - 0. 504903 7 - 0. 025890 1. 015680 - 1. 115697 0. 030496 - 0. 504903 NOTE: C onv er gence c r i t er io n m et . Non- Li near L east S quar es S ummar y S t at is t i cs Dependent V ar i ab l e Y Sour ce DF S um o f S quar es Mean S quar e Regr ess i on 4 26. 345942106 6. 586485527 Res i dual 26 0.0 30495537 0.0 01172905 Unc or r ecte d T ot al 30 26. 376437643 ( Cor r ec t ed T ot al ) 29 0. 718952907 Par amet er Es t im at e Asympt oti c Asympt ot i c 95 % St d. E r ro r Conf i dence I nte r val Lower Upper T1 - 0. 025889698 0 . 01262383861 - 0. 0518381649 0.0 000587686 T2 1. 015679670 0 . 00993792746 0. 9952521286 1. 0361072105 T3 - 1. 115697129 0. 16354199086 - 1. 4518598482 - 0. 7795344107 T4 - 0. 504902861 0 . 02565720971 - 0. 5576415935 - 0. 4521641277 Asympt ot i c Cor r ela t i on M atr i x Cor r T1 T2 T3 T4 - - - - - - - - -- - - - - - -- - - - - - - - -- - - - - - - - -- - - - - - -- - - - - - - - -- - - - - - - - -- - - - - - -- - - - - - - - -- T1 1 - 0. 627442952 - 0. 085785748 - 0. 136140358 T2 - 0. 627442952 1 0. 3734920647 - 0. 007260901 T3 - 0. 085785748 0. 3734920647 1 0. 5615334631 T4 - 0. 136140358 - 0. 007260901 0. 5615334631 1
Fi gur a 2 . S aí da d o p r ogr ama S AS.
22
Como visto da Figura 2, o SAS imprime os desvios padrão estimados �
σ i e as
correlações �
ρij . Para recuperar a matriz s C2�
, a matriz de variâncias e covariâncias,
usa-se a fórmula
s cij i j ij2 � � � �
= σ σ ρ ,
onde a matriz �
C é definida como
( ) ( )[ ]� � �
C F F= ′−
θ θ1
.
Por exemplo,
( )( )( )s c212 0 01262384 0 00993793 0 627443 0 000078716
�
, , , ,= − = − .
As matrizes s C2�
e �
C são
s C
E E
E E E
E E
2
0 00015936 7 8716 05 0 00017711 4 4095 05
7 8716 05 9 8762 05 0 00060702 1 8514 06
0 00017711 0 00060702 0 026746 0 00235621
4 4095 05 1 8514 06 0 00235621 0 00065829
�
, , , ,
, , , ,
, , , ,
, , , ,
=
− − − − −− − − − −−
− − − −
�
, , , ,
, , , ,
, , , ,
, , , ,
C =
− − −− −−
− −
0 13587 0 067112 0 15100 0 037594
0 067112 0 084203 0 51754 0 00157848
0 15100 0 51754 22 8032 2 00887
0 037594 0 00157848 2 00887 0 56125
.
23
3. TESTES DE HIPÓTESES
Para um melhor entendimento desta seção o leitor poderá ler o capítulo 2 do
livro de SEARLE (1971) ou outro material que aborde inferência estatística.
3.1. TESTE DE WALD
Assumindo que os dados seguem o modelo
( )y f e= +θ 0 ( )e N In~ ,Φ σ 2
considere testando a hipótese
( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ
onde ( )h θ é uma função diferenciável com Jacobiano
( ) ( )H hθ∂
∂θ θ= ′
de ordem q por p. Quando ( )H θ é avaliado à θ θ=�
nós devemos escrever �
H ,
( )� �
H H= θ
e à θ θ= 0 escrevemos H ,
( )H H= θ 0 .
GALLANT (1987) mostra que ( )h�
θ pode ser caracterizada como
( ) ( ) ( )h h H F F F en
p
�
θ θ σ= + ′ ′ +
−0 1 1
onde, ( )F f= ′∂
∂θ θ 0 .
Ignorando o último termo, tem-se
( ) ( ) ( )[ ]h N h H F F Hq
�
~ ,θ θ σ0 2 1′ ′−
assim,
24
( ) ( )[ ] ( )′ ′ ′− −
h H F F H h� �
θ θσ
1 1
2
é (aproximadamente) distribuída como a distribuição de qui-quadrado não-central
com q graus de liberdade e parâmetro de não-centralidade
( ) ( )[ ] ( )
λθ θ
σ=
′ ′ ′− −h H F F H h0 1 1
0
22.
( )n p s− 2 2/ σ tem distribuição de qui-quadrado com n-p graus de liberdade,
( ) ( )n p s
n p−
−2
22
σχ~
e s2 e �
θ são independentes.
Assim, temos (aproximadamente) que a razão
( ) ( )[ ] ( )
( )( )
′ ′ ′
−−
− −h H F F H h
q
n p s
n p
� �
θ θσ
σ
1 1
2
2
2
segue a distribuição F com q graus de liberdade do numerador e n-p graus de
liberdade do denominador e parâmetro de não-centralidade λ , denotado como
( )′ −F q n p, , λ .
Cancelando alguns termos , temos que
( ) ( )[ ] ( ) ( )′ ′ ′
′ −− −
h H F F H h
qsF q n p
� �
~ , ,θ θ
λ1 1
2
Nas aplicações, estimativas �
H e �
C devem substituir H e ( )′ −F F 1 , onde,
( ) ( )[ ]� � �
C F F= ′−
θ θ1
.
Sob a hipótese de ( )H h: θ 0 = Φ verdadeira, teremos que
25
( ) ( )[ ] ( ) ( )′ ′ ′
−− −
−h H F F H h
qsF q n p
� �
~ , ,θ θ1 1
21 .
Assim, a estatística resultante para testar ( )H h: θ 0 = Φ
( )( ) ( )
Wh HCH h
qs=
′ ′−� � � � �
θ θ1
2
é chamada de teste de Wald.
O teste de Wald rejeita a hipótese de nulidade quando a estatística W
exceder o ponto crítico superior α x (100%) da distribuição F com q graus de
liberdade do numerador e n-p graus de liberdade para o denominador, denotado
por ( )F q n p− − −1 1 α; , .
Para o nosso exemplo, considere a hipótese que não haja efeito de
tratamento,
H: θ1 0= contra A: θ1 0≠ .
Assim,
( )h θ θ= 1 ( )h�
,θ = −0 02588970 .
( ) ( ) [ ]H hθ∂
∂θ θ= ′ = 1 0 0 0 ( ) [ ]� �
H h= ′ =∂
∂θ θ 1 0 0 0 .
[ ]� � �
, , , ,
, , , ,
, , , ,
, , , ,� � �
�
, .
HCH
HCH c
′ =
− − −− −−
− −
′ = =
1 0 0 0
013587 0 067112 0 15100 0 037594
0 067112 0 084203 0 51754 0 00157848
0 15100 0 51754 22 8032 2 00887
0 037594 0 00157848 2 00887 0 56125
1
0
0
0
0 1358711
s2 0 00117291= , q = 1.
( )( ) ( )
Wh HCH h
qs=
′ ′−� � � � �
θ θ1
2
26
( )( ) ( )
( )W =− −
=−
0 02588970 0 13587 0 025889701 0 00117291
4 20601
, , ,,
, .
O ponto crítico superior 5% da distribuição F com 1 grau de liberdade para o
numerador e 26=30-4 graus de liberdade para o denominador é
( )F − =1 0 95 1 26 4 22, ; , ,
e assim não rejeita-se a hipótese de nulidade, ou seja, não existe efeito de
tratamento.
No caso de se testar apenas um parâmetro do modelo, resultado análogo
pode ser obtido pela estatística t:
ts c
ii
ii
=
�
θ2
e comparar o valor absoluto com
( )t n p− − −1 1 2α / ; .
No exemplo,
t1
0 0258879700 01262384
2 0509=−
= −,,
, e ( )t − =1 0 975 26 2 0555, ; , .
Deve-se achar atenção do leitor para o fato que o programa SAEG fornece a
significância para 1− α .
3.2. TESTE DA RAZÃO DE VEROSSIMILHANÇA
Um dos métodos mais familiar de testar a hipótese linear
H R r: β = contra A R r: β ≠
para um modelo linear
y X e= +β
é: primeiro, ajustar o modelo completo por quadrados mínimos, obtendo
27
( ) ( )SSE y X y Xfull = −′
−� �
β β
( )�
β = ′ ′−X X X y
1 .
Segundo, reajustar o modelo sujeito a hipótese de nulidade R rβ = , obtendo
( ) ( )SSE y X y Xreduced = −′
−~ ~β β
( ) ( )[ ] ( )~ � �
β β β= + ′ ′ ′ ′ −− − −X X R R X X R r R
1 1 1.
Terceiro, calcular a estatística F
( )
( ) ( )F
SSE SSE q
SSE n p
reduced full
full
=−
−
/
/
onde q é o número de restrições em β (número de linhas em R), p o número de
colunas em X, e n o número de observações - matrizes de posto completo sendo
assumidas.
Se assumir que os erros são normais num modelo não-linear
( )y f e= +θ 0 ( )e N In~ ,Φ σ 2
e derivar o teste da razão de verossimilhança para a hipótese
( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ
obtém-se exatamente o mesmo teste . O teste é calculado como segue.
Primeiro, calcule
�
θ minimizando ( ) ( )[ ] ( )[ ]SSE y f y fθ θ θ= − −'
e faça
( )SSE SSEfull =�
θ .
Segundo, reajuste sob a hipótese de nulidade por calcular
~θ minimizando ( )SSE θ sujeito a ( )h θ = 0
e faça
28
( )SSE SSEreduced = ~θ .
Terceiro, calcule a estatística
( )
( ) ( )LSSE SSE q
SSE n p
reduced full
full
=−
−
/
/.
Exemplo:
Recordando que a função resposta é
( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43 ,
reconsidere a hipótese
H: θ1 0= .
Isto é uma afirmação que os dados seguem o modelo
y x e et tx
tet= + +θ θ θ
2 2 43 .
Ajustando este modelo aos dados da Tabela 1 pelo método de Gauss-Newton
modificado, tem-se
SSEreduced = 0 03543298, .
Previamente tinha-se
SSE full = 0 03049554, .
O teste de razão da verossimilhança é
( )
( ) ( )LSSE SSE q
SSE n p
reduced full
full
=−
−
/
/
( )
L =−
=0 03543298 0 03049554 1
0 03049554 264 210
, , /, /
, .
Comparando com o ponto crítico
( )F − =1 0 95 1 26 4 22, ; , ,
não rejeita-se a hipótese de nulidade ao nível de 95%.
29
4. INTERVALOS DE CONFIANÇA
Um intervalo de confiança de qualquer função paramétrica ( )γ θ pode ser
obtido por inverter qualquer dos testes de
( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ
descritos na seção prévia. Isto é, para construir um intervalo de confiança
( )100 1− α % para ( )γ θ faça
( ) ( )h θ γ θ γ= − 0
e coloque no intervalo todos aqueles γ 0 para os quais a hipótese ( )H h: θ 0 0= é
aceita ao nível de significância α . O mesmo é verdade para regiões de confiança,
a única diferença é que ( )γ θ e γ 0 serão q-vetores ao invés de serem univariados.
O teste de Wald é fácil para inverter. No caso univariado (q=1), o teste de
Wald aceita a hipótese de nulidade quando
( )γ θ γ
α
�
� � � /
−
′≤
0
2 2s HCH
t
onde
( )[ ] ( )� � �
H = ′ − = ′∂
∂θ γ θ γ∂
∂θ γ θ0
e ( )t t n pα α/ / ;21 1 2= − −− ; isto é, tα /2 denota o ponto crítico superior α / 2 da
distribuição t com n-p graus de liberdade. Aqueles pontos γ 0 que satisfazem a
desigualdade estão no intervalo
( )γ θ α
� � � �
/± ′t s HCH22 .
A situação mais comum é quando deseja-se calcular um intervalo de
confiança de um dos componentes θ i do vetor paramétrico θ . Neste caso o
intervalo é
θ αi iit s c± /
�
22
30
onde �
cii é o i-ésimo elemento da diagonal de ( ) ( )[ ]� � �
C F F= ′−
θ θ1
. Vamos ilustrar com
um exemplo.
Recordando que
( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43
vamos fazer um intervalo de confiança em θ1 por inverter o teste de Wald. Pode-se
ler o intervalo de confiança diretamente da saída do programa SAS na Figura 2, ou
calcular como
�
,θ1 0 0258870= −
�
,c11 0 13587=
s2 0 00117291= ,
( )t − =1 0 975 26 2 0555, ; ,
( ) ( )( )�
�
, , , ,/θ α1 22
11 0 02588970 5 0555 0 00117291 0 13587± = − ±t s c
�
�
, ,/θ α1 22
11 0 02588970 0 0259484615± = − ±t s c
logo,
[ ]− 0 051838 0 0000588, ; , .
No caso que ( )γ θ é um q-vetor, o teste de Wald aceita a hipótese de
nulidade quando
( )[ ] ( ) ( )[ ]γ θ γ γ θ γ
α
� � � � �
−′
′ −≤
−0 1 0
2
HCH
qsF
onde ( )F F q n pα α= − −−1 1 ; , .
Para construir um intervalo de confiança para ( )γ θ por inverter o teste de
razão da verossimilhança, faça
( ) ( )h θ γ θ γ= − 0
com γ 0 um q-vetor, e coloque
31
( ) ( ){ }SSE min SSEγ
θ γ θ γ0
0= =: .
O teste de razão da verossimilhança aceita a hipótese de nulidade quando
( ) ( )( ) ( )
LSSE SSE q
SSE n pF
full
full
γ γα
00
=−
−≤
/
/
onde, ( ) ( )SSE SSE min SSEfull = =�
θ θ .
Então, a região de confiança da razão de verossimilhança consiste daqueles
pontos γ 0 com ( )L Fγ α0 ≤ . Sofisticadas técnicas envolvendo rotinas de interpolação
podem ser necessárias para calcular as regiões.
5. TÉCNICAS DE DIAGNÓSTICO
Exceto com relação aos resíduos, as técnicas mais usuais de diagnóstico em
regressão não-linear são simples adaptações da regressão linear. Algumas destas
técnicas serão apresentadas nesta seção.
5.1. MATRIZ DE PROJEÇÃO
A matriz de projeção �
H definida como
( ) ( ) ( )[ ] ( )� � � � �
H F F F F= ′ ′−
θ θ θ θ1
é conhecida como matriz ' ' hat' ' , pois transforma y em �
y é muito usual na detecção
de pontos mais afastados dos demais. Esses pontos, além de serem
potencialmente aberrantes e influentes, em geral exercem grande influência sobre a
matriz de variâncias e covariâncias.
O elemento �
hii de �
H representa a influência da i-ésima resposta sobre o i-
ésimo valor ajustado. Logo, como �
h pii =∑ , supondo que todos os pontos exercem
a mesma influência sobre os valores ajustados, espera-se que �
hii esteja próximo de
p/n. Convém, então, examinar aquelas observações correspondentes aos maiores
valores de �
hii . Hoaglin & Welsch (1978) citados por CORDEIRO & PAULA (1989)
sugerem
32
�
/h p nii ≥ 2
como guia para indicar pontos mais afastados. Entretanto, outras medidas de
diagnóstico sempre serão necessárias para confirmar esse primeiro diagnóstico.
Exemplo:
O programa SAS fornece os elementos �
hii , os quais são apresentados na
Tabela 2. A Figura 3 exibe o gráfico dos valores �
hii contra a ordem das
observações. Destaca-se como aberrante as observações de número 14, 25 e 29.
Tabela 2 - Observações e seus respectivos valores de �
hii .
t �
hii 1 0.08385 2 0.08412 3 0.08572 4 0.08384 5 0.08549 6 0.23676 7 0.08432 8 0.07637 9 0.08423 10 0.07164 11 0.08579 12 0.08313 13 0.24902 14* 0.43044 15 0.07902 16 0.07403 17 0.23203 18 0.08275 19 0.07891 20 0.22430 21 0.07966 22 0.08407 23 0.08569 24 0.08597 25* 0.37072 26 0.07672 27 0.07911 28 0.10938 29* 0.35197 30 0.08095
*Observações que ultrapassaram o limite�
/hii ≥ 4 15 .
33
14
2529
0
0,05
0,1
0,15
0,2
0,25
0,3
0,35
0,4
0,45
0 5 10 15 20 25 30
Índice da observação
diag
onal
de
H
Figura 3 - Gráfico de �
hii contra a ordem das observações.
5.2. INFLUÊNCIA
É fundamental num modelo de regressão conhecer o grau de dependência
entre o mesmo e as observações para as quais esse é ajustado. Será preocupante
se pequenas perturbações nas observações produzirem mudanças nas estimativas
obtidas. No entanto, se tais perturbações não alterarem os principais resultado,
pode-se confiar no modelo proposto, mesmo desconhecendo o verdadeiro processo
que descreve o fenômeno em estudo.
As técnicas mais conhecidas para detectar esse tipo de influência são
baseadas na exclusão de um único ponto e procuram medir o impacto dessa
perturbação nas principais estimativas do modelo. Esse método, entretanto, pode
não ser adequado se duas ou mais observações forem responsáveis conjuntamente
por um termo extra no preditor linear, na variável resposta ou nas covariáveis. O
34
método gráfico da variável adicionada, que não será aqui apresentado, é
freqüentemente utilizado para avaliar a influência conjunta das observações nas
estimativas individuais dos parâmetros.
As medidas de influência para o modelo normal não-linear são baseadas na
regressão linear. A única diferença, que pode ser relevante, é a substituição da
estimativa ( )�
θ i pela estimativa correspondente ( )
�
θ i1 , que é obtida inicializando o
processo iterativo em �
θ sem a i-ésima observação e tomando a estimativa de um
passo.
Mostra-se que essa estimativa de um passo é dada por
(10) ( ) ( )[ ]( )
� �
� �
�
( )θ θθ θ
i
ii
i i
F F
hf r1
1
1= −
′
−
−
,
onde f i é a i-ésima linha de ( )F�
θ e ri é o resíduo da i-ésima observação.
Uma medida de influência da retirada do i-ésimo ponto sobre a estimativa �
θ j ,
é dada por
( )∆ i j
j i j
jDP
�
� �
�
( )θθ θ
θ=
−
onde ( )DP ⋅ denota o desvio padrão e �
( )θ i j é a j-ésima componente do vetor �
( )θ i .
Uma outra medida de influência muito conhecida e a distância de Cook
definida por
( ) ( ) ( )[ ]( )D F F psi i i= −′
′ −� � � � � �
/( ) ( )θ θ θ θ θ θ 2 .
Usando (10) na expressão acima, obtém-se a forma aproximada
( )Dtp
h
hi
i ii
ii
12
1= ⋅
−
��
�
onde �
�tr
s hi
i
ii
=−1
é o i-ésimo resíduo ordinário studentizado, i = 1, 2, ..., n.
35
O gráfico de Di1 contra a ordem das observações é usual, devendo-se dar
atenção àqueles pontos com o Di1 correspondente mais afastado dos demais. Se o
interesse é detectar pontos influentes nas estimativas individuais �
θ j , j = 1, 2, ..., p,
sugere-se o gráfico de
( )∆ i j
j i j
jDP
�
� �
�
( )θθ θ
θ=
−
contra a ordem das observações.
Exemplo:
O SAS fornece os resíduos ordinários studentizados (�
ti ) restando-nos
calcular os valores da distância de Cook ( Di1 ). Como exemplo de detectar pontos
influentes na estimativa de �
θ1 vamos calcular os valores de ∆ i
�
θ1 .
A Tabela 3 apresenta os valores de �
ti , Di1 e ∆ i
�
θ1 . A Figura 4 exibe o gráfico
dos valores Di1 contra a ordem das observações. Destaca-se como aberrante as
observações de número 6, 25 e 30. A Figura 5 exibe o gráfico dos valores ∆ i
�
θ1
contra a ordem das observações. Destaca-se como ponto influente a observação de
número 30.
Para a primeira observação, temos
tr
s h1
1
111
0 98610 0 989333
0 034247847 1 0 083850570 09862=
−=
−−
= −�
, ,
, ,,
( )( )
( )Dtp
h
h11 1
211
11
2
1
0 098624
0 083850571 0 08385057
0 00022= ⋅−
=−
⋅−
=�
�
�
, ,,
,
( )∆1 1
1 1 1
1
0 025889698 0 0256454901262383861
0 019345�
� �
�
, ( , ),
,( )θ
θ θ
θ=
−=
− − −= −
DP.
36
Tabela 3 - Observações e seus respectivos valores de �
ti , Di1 e ∆ i
�
θ1 .
t �
ti Di1 ∆ i
�
θ1 1 -0,09861 0,00022 -0,019345 2 0,69591 0,01112 -0,13176 3 -1,06729 0,0267 -0,20825 4 0,79931 0,01462 -0,1512 5 1,02315 0,02447 0,20016 6 -1,4925 0,17275 0,25745 7 -0,81877 0,01543 -0,16036 8 1,10731 0,02534 -0,20538 9 -0,02533 0,00001 -0,0049638 10 0,79958 0,01233 -0,14259 11 0,00117 0 0,00022938 12 -0,10352 0,00024 0,19605 13 -0,78325 0,05086 -0,16437 14 0,09136 0,00158 -0,031499 15 -0,49247 0,0052 -0,099712 16 -0,74349 0,01105 0,13673 17 0,84873 0,05441 0,12744 18 -0,64916 0,0095 0,12302 19 1,02218 0,02238 0,20508 20 0,09005 0,00059 -0,020038 21 1,68431 0,06139 0,33539 22 0,84707 0,01646 -0,16028 23 -0,44294 0,0046 -0,086493 24 1,56934 0,05791 -0,26792 25 0,96626 0,13751 0,25018 26 0,2234 0,00104 -0,038986 27 -1,05079 0,02371 -0,21024 28 -0,39749 0,00485 0,067262 29 -0,72145 0,07067 -0,09629 30 -2,94609 0,19112 0,55837
37
30
25
6
0
0,02
0,04
0,06
0,08
0,1
0,12
0,14
0,16
0,18
0,2
0 5 10 15 20 25 30
Índice da observação
med
ida
de C
ook
Figura 4 - Gráfico de Di1 contra a ordem das observações.
30
-0,3
-0,2
-0,1
0
0,1
0,2
0,3
0,4
0,5
0,6
0 5 10 15 20 25 30
Índice da observação
∆ i
�
θ1
Figura 5 - Gráfico de ∆ i
�
θ1 contra a ordem das observações.
38
6. CONSIDERAÇÕES FINAIS
Com a disponibilidade dos programas computacionais SAEG e SAS não há
dificuldades na estimação de parâmetros, em testes de hipóteses, intervalos de
confiança para um parâmetro e testes de diagnóstico.
Assim, o leitor poderá utilizar modelos mais completos, como o do exemplo, o
que resultará em maior precisão no estudo do fenômeno em questão.
Entretanto, deve-se chamar a atenção do leitor para alguns fatos:
1. O cálculo de testes de hipóteses com mais de uma afirmação e de regiões de
confiança não são imediatos.
2. A matriz ( )( ) ( )( )′F Fθ θ0 0 pode ser singular. Neste caso, o leitor poderá "montar" a
( )( )′F θ 0 para que a inversa do produto pela sua transposta não resulte em singular,
como feito no exemplo, ou obter uma inversa generalizada fornecida pelo SAS.
3. Avaliar a não-linearidade do modelo para se ter confiabilidade nas propriedades
do estimador de mínimos quadrados. Este assunto não foi detalhado aqui,
sugerindo-se a leitura do livro de RATKOWSKY (1983).
39
7. REFERÊNCIAS BIBLIOGRÁFICAS
CORDEIRO, G. M., PAULA, G. A. Modelos de regressão para análise de dados
univariados. s. l., 1989. 353p.
GALLANT, A. R. Nonlinear statistical models. New York: John Wiley & Sons, 1987.
611p.
HOFFMANN, L. D. Séries infinitas e aproximação por Taylor. In: ___. Cálculo: um
curso moderno e suas aplicações. 2.ed. Rio de Janeiro: Livros Técnicos e
Científicos, 1990. 2v, cap.11, p166-76. - Tradução de: Calculus for business,
economics, and the social and life science.
NETER, J., WASSERMAN, W., KUTNER, M. H. Applied linear statistical models.
2.ed. Homewood: Richard D. Irwin, 1985. 1127p.
RATKOWSKY, D. A. Nonlinear regression modeling. New York: Marcel Bekker,
1983. 276p.
SEARLE, S. R. Distributions and quadratic forms. In: ___. Linear models. New York:
John Wiley & Sons, 1971. cap.2, p.47-53.
SEARLE, S. R. Miscellanea. In: ___. Matrix algebra useful for statistics. New York:
John Wiley & Sons, 1982. cap.12, p.327-30.
SOUZA, D. G. Algumas considerações sobre regressão não linear. São Paulo,
1986. 122p. Dissertação (Mestrado em Estatística) - Instituto de Matemática e
Estatística, Universidade de São Paulo.