universidade federal do rio grande do sul … · 2009-07-29 · transformado num modelo linear...

1Parte do Exame de Qualificação apresentado pelo primeiro autor ao Departamento de Zootecnia da Universidade Federal de Viçosa. 2Examinador 3Orientador

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

FACULDADE DE AGRONOMIA

DEPARTAMENTO DE ZOOTECNIA

MODELO NORMAL NÃO-LINEAR1

AUTORES:

Prof. José Braccini Neto. Departamento de Zootecnia - UFRGS

Prof. Adair José Regazzi2. Departamento de Informática - UFV

Prof. Martinho de Almeida e Silva3. Departamento de Zootecnia - UFMG

Porto Alegre - RS

Janeiro - 2004

2

CONTEÚDO

1. Introdução ............................................................................................................ 3

2. Estimação de parâmetros..................................................................................... 3

3. Testes de hipóteses ........................................................................................... 23

3.1. Teste de Wald ................................................................................................. 23

3.2. Teste da razão de verossimilhança................................................................. 26

4. Intervalos de confiança ...................................................................................... 29

5. Técnicas de diagnóstico..................................................................................... 31

5.1 Matriz de projeção ............................................................................................ 31

5.2 Influência .......................................................................................................... 33

6. Considerações finais .......................................................................................... 38

7. Referências bibliográficas .................................................................................. 39

3

MODELO NORMAL NÃO-LINEAR

1. INTRODUÇÃO

A importância do estudo do tema "modelo normal não-linear" pode ser

constatada na leitura do livro de RATKOWSKY (1983), onde o autor define vários

modelos aplicados a ciências biológicas, bem como em outras áreas, e discute sob

vários aspectos.

O objetivo deste trabalho é fornecer um material didático para leitores que

farão contato com este assunto pela primeira vez. Cada tópico será acompanhado

de um exemplo para facilitar o entendimento teórico. Procurar-se-á apresentar o

assunto sem saltar etapas, mas quando isto não ocorrer chamar-se-á atenção do

leitor para livros textos complementares.

Este texto foi baseado em RATKOWSKY (1983), NETER et al. (1985),

SOUZA (1986), GALLANT (1987) e CORDEIRO & PAULA (1989).

2. ESTIMAÇÃO DE PARÂMETROS

Primeiramente, vamos definir modelos lineares, modelos lineares

intrinsicamente e modelos não-lineares antes de mostrar os processos de

estimação de parâmetros.

Modelos Lineares

São modelos nos quais os parâmetros aparecem linearmente. Por exemplo,

um modelo de regressão polinomial com duas variáveis independentes:

(1) Y X X X X X Xi i i i i i i i

= + + + + + +β β β β β β ε0 1 1 2 1

2

3 2 4 2

2

5 1 2

Observe que, apesar de alguns termos serem quadráticos, as variáveis

independentes são lineares em seus parâmetros.

4

Modelos Lineares Intrinsicamente

Existem modelos, que embora sejam não-lineares em seus parâmetros,

podem ser transformados de modo que seus parâmetros apareçam linearmente.

Por exemplo, o modelo exponencial:

(2) ( )[ ]Y Xi i i= γ γ ε0 1exp

é não-linear em seus parâmetros γ 0 e γ 1. Entretanto, este modelo pode ser

transformado num modelo linear usando a transformação logarítmica:

(3) log log loge i e i e iY X= + +γ γ ε0 1

Fazendo:

log

log

log

'

'

e i i

e

e i i

Y Y===

=

γ βγ β

ε ε

0 0

1 1

nós podemos escrever o modelo (3) na forma usual de um modelo linear:

(4) Y Xi i i' '= + +β β ε0 1

Nós dizemos que o modelo (2) é um modelo linear intrinsicamente por que

ele pode ser expresso numa forma linear por meio de uma transformação. Deve-se

observar que se os erros ε i no (2) são normalmente distribuídos, os erros εi' no (4)

não serão normalmente distribuídos. Portanto, é importante fazer um estudo de

análise de resíduos para este modelo linearizado.

Modelos não-lineares

São modelos que tem pelo menos um parâmetro aparecendo não-

linearmente (o parâmetro aparece como expoente, ou multiplicado ou dividido por

outro parâmetro, ou em funções transcedentes como as exponenciais, logarítmicas

e trigonométricas) e que não podem ser linearizados por meio de uma

transformação. Por exemplo, o modelo (2) com o erro aditivo:

(5) ( )[ ]Y Xi i i= +γ γ ε0 1exp

5

é intrinsicamente não-linear por que não existe nenhuma transformação que

transforme este modelo num modelo linear.

ESTIMADORES DE MÍNIMOS QUADRADOS

Modelos Lineares

Suponha que há razão para acreditar, do conhecimento acerca do sistema

ou processo, que os dados obtidos podem ser representados pelo seguinte modelo

de regressão linear que passa pela origem:

(6) Y Xt t t= +β ε

O estimador de quadrados mínimos de β é obtido por minimizar a soma de

quadrados dos desvios do Yt do seu valor esperado, isto é, por minimizar

(7) ( )S Y Xt tt

n

( )β β= −=

∑ 2

1

Escrevendo S no lugar de S( )β para simplificar a notação, o valor mínimo de S

pode ser obtido por diferenciar (7) com respeito a β , colocando a derivada igual a

zero e resolvendo para β , esta solução é denotada por �

β para indicar que é o

estimador de quadrados mínimos de β . Assim,

( )∂∂β β

SY X Xt t t= − − =∑2 0

conduz ao seguinte:

(8) �

β = ∑∑

X Y

Xt t

t2

Como os X t são assumidos serem sem erro e não serem variáveis aleatórias, �

β é

uma combinação linear das variáveis aleatórias Yt . Se os Yt são assumidos serem

distribuídos normalmente acerca de seus valores médios βX t com variância finita

σ 2 (isto é, a variância do εt ), segue que �

β é também normalmente distribuído.

6

Além disso, a esperança de �

β é β , o que significa que �

β é não-viesado para β , e

a variância de �

β ,

VarX t

(�

)βσ

= ∑2

2

é a variância mínima possível de qualquer estimador linear não-viesado para β .

Assumindo que os εt são variáveis aleatórias independentes e identicamente

normal distribuídas (iidN) com média zero e variância finita σ 2 , os estimadores de

quadrados mínimos de parâmetros desconhecidos num modelo linear são também

estimadores de máxima verossimilhança.

Modelos não-lineares

Suponha que uma dada situação pode ser representada pelas seguintes

equações de regressão:

(9) ( )y f x e t nt t t= + =, , ,...,θ 0 1 2

onde ( )f x,θ é a função resposta conhecida, θ 0 é um vetor p-dimensional de

parâmetros desconhecidos, e o et representa os erros experimentais. Escreve-se

θ 0 para enfatizar que é o verdadeiro, mas desconhecido, valor do vetor parâmetro;

θ é usado para denotar exemplos quando o vetor parâmetro é tratado como uma

variável, como por exemplo, na diferenciação. Os erros são assumidos serem

independentemente e identicamente distribuídos com média zero e variância

desconhecida σ 2 . A seqüência de variáveis independentes ( )x t é tratada como

uma seqüência de constantes conhecidas fixas e não como variáveis aleatórias. Em

modelos não-lineares o número de variáveis independentes não está diretamente

relacionado ao número de parâmetros.

Exemplo:

Seja a seguinte função resposta

( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43 .

O vetor da variável independente é

7

x

x

x

x

=

1

2

3

e o vetor paramétrico é

θ

θθθθ

=

1

2

3

4

.

O conjunto de respostas observadas e variáveis independentes para este modelo

encontram-se na Tabela 1.

Tabela 1 - Dados do exemplo

t Y X1 X2 X3 1 0,98610 1 1 6,28 2 1,03848 0 1 9,86 3 0,95482 1 1 9,11 4 1,04184 0 1 8,43 5 1,02324 1 1 8,11 6 0,90475 0 1 1,82 7 0,96263 1 1 6,58 8 1,05026 0 1 5,02 9 0,98861 1 1 6,52 10 1,03437 0 1 3,75 11 0,98982 1 1 9,86 12 1,01214 0 1 7,31 13 0,66768 1 1 0,47 14 0,55107 0 1 0,07 15 0,96822 1 1 4,07 16 0,98823 0 1 4,61 17 0,59759 1 1 0,17 18 0,99418 0 1 6,99 19 1,01962 1 1 4,39 20 0,69163 0 1 0,39 21 1,04255 1 1 4,73 22 1,04343 0 1 9,42 23 0,97526 1 1 8,90 24 1,04969 0 1 3,02 25 0,80219 1 1 0,77 26 1,01046 0 1 3,31 27 0,95196 1 1 4,51 28 0,97658 0 1 2,65 29 0,50811 1 1 0,08 30 0,91840 0 1 6,11

Fonte: Gallant (1975d) citado por GALLANT (1987).

8

As variáveis independentes correspondem a um delineamento com

tratamento controle que usa material experimental cuja idade afeta a resposta numa

forma exponencial. Isto é, a primeira observação

[ ]x1 1 1 6 28= ; ; ,'

representa o material experimental com idade de x3 6 28= , meses que foi

aleatoriamente alocada ao grupo tratamento e que tem resposta esperada

( )f x e10

10

20

40 6 28 3

0

, ,θ θ θ θ θ= + + .

Similarmente, a segunda observação

[ ]x2 0 1 9 86= ; ; ,'

representa a locação do material que atingiu a idade de x3 9 86= , ao grupo controle,

com resposta esperada

( )f x e20

20

40 9 863

0

, ,θ θ θ= + .

O parâmetro θ10 é o efeito do tratamento.

O modelo em (9) pode ser escrito na forma de vetor

( )y f e= +θ 0

onde

y

y

y

yn

=

1

2�

( )

( )( )

( )f

f x

f x

f xn

θ

θθ

θ

=

1

2

,

,

,

�

9

e

e

e

en

=

1

2� .

Da mesma forma que ocorre em modelos lineares, o estimador de quadrados

mínimos de θ é obtido por minimizar a soma de quadrados dos desvios ( )SSE θ dos

Yt observados dos valores preditos ( )f xt ,θ , isto é, por minimizar

( ) ( )[ ]SSE y f xt tt

n

θ θ= −=∑ ,

1

2

ou, em notação de vetor

( ) ( ) ( )[ ] ( )[ ]SSE y f y f y fθ θ θ θ= − = − −2

'

onde ( )y f− θ é a norma euclidiana de ( )y f− θ .

Para que possamos entender o processo de derivação para obtenção dos

estimadores de quadrados mínimos, vamos apresentar a notação utilizada para

cálculo de derivadas de matrizes.

Fazendo ( )f θ ser uma função vetor coluna n por 1 de um argumento p-

dimensional θ . O Jacobiano de

( )

( )( )

( )

f

f

f

fn n

θ

θθ

θ

=

1

2

1

�

é uma matriz n por p

( ) ( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

F f

f f f

f f f

f f fn

p

p

n np

n

p

θ ∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ ∂

∂θ θ ∂∂θ θ

= ′ =

11

21 1

12

22 2

1 2

�

�

� � �

�

.

10

Fazendo ( )′h θ ser uma função vetor 1 por n

( ) ( ) ( ) ( )[ ]′ =h h h hnθ θ θ θ1 2 � .

Então,

( )

( ) ( ) ( )

( ) ( ) ( )

( ) ( ) ( )

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

∂∂θ θ

′ =

h

h h h

h h h

h h hp

n

n

p p pn

n

11

12

1

21

22

2

1 2

�

��

�

.

Se ( )f θ e ( )′h θ são como acima, então

( ) ( ) ( ) ( ) ( ) ( )∂∂θ θ θ θ

∂∂θ θ θ

∂∂θ θ′ ′ = ′ ′

+ ′ ′

h f h f f h

n p n p1 1 .

Assim, a derivada da soma de quadrados dos desvios em relação a ′θ é

( ) ( )[ ] ( )[ ]( )[ ] ( )[ ] ( )[ ] ( )[ ]

( )[ ] ( )

( )[ ] ( )

∂∂θ θ

∂∂θ θ θ

θ∂

∂θ θ θ∂

∂θ θ

θ∂

∂θ θ

θ θ

′ = ′ −′

−

= −′

′ − + −′

′ −

= −′

− ′

= − −′

SSE y f y f

y f y f y f y f

y f f

y f F

2

2

e igualando a zero teremos o seguinte sistema de equações normais

( ) ( )[ ]′ − =F y f� �

θ θ Φ

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )

( )( )

( )

∂∂θ

θ ∂∂θ

θ ∂∂θ

θ

∂∂θ

θ∂

∂θθ

∂∂θ

θ

∂∂θ

θ∂

∂θθ

∂∂θ

θ

θθ

θ

��

��

��

��

��

��

��

��

��

�

�

�

1

1

1

2

1

21

22

2

1 2

1

2

1

2

f f f

f f f

f f f

y

y

y

f

f

f

n

n

p p pn

n n

�

��

�

� �

−

=

0

0

0

� .

Estas equações normais são não-lineares nos estimadores dos parâmetros e em

geral não apresentam fórmulas explicitas sendo as estimativas obtidas por meio de

11

técnicas numéricas denominadas técnicas de otimização não-linear ou

programação não-linear.

Vamos ilustrar por meio do nosso exemplo as etapas realizadas até aqui.

O modelo é dado por ( )y f e= +θ 0

Aplicação direta das definições de y e ( )f θ produz

y

y

y

yn

=

=

1

2

0 98610

1 03848

0 91840

� �

,

,

,

( )

( )( )

( )f

f x

f x

f x

e

e

en

θ

θθ

θ

θ θ θθ θ

θ θ

θ

θ

θ

=

=

+ ++

+

1

2

1 2 46 28

2 49 86

2 46 11

3

3

3

,

,

,

,

,

,

� � .

Logo,

( ) ( )∂∂θ θ

∂∂θ θ θ θ θ

1 11 1 2 2 4 1

3 3f x x x e xx, = + + =

( ) ( )∂∂θ θ

∂∂θ θ θ θ θ

2 21 1 2 2 4 2

3 3f x x x e xx, = + + =

( ) ( )∂∂θ θ

∂∂θ θ θ θ θθ θ

3 31 1 2 2 4 4 3

3 3 3 3f x x x e x ex x, = + + =

( ) ( )∂∂θ θ

∂∂θ θ θ θ θ θ

4 41 1 2 2 4

3 3 3 3f x x x e ex x, = + + =

o Jacobiano de ( )f θ é

( )F

e e

e e

e e

θ

θθ

θ

θ θ

θ θ

θ θ

=

30

46 28 6 28

49 86 9 86

46 11 6 11

4

1 1 6 28

0 1 9 86

0 1 6 11

3 3

3 3

3 3

( , )

( , )

( , )

, ,

, ,

, ,

� � � � .

12

As equações normais são dadas por

( ) ( )[ ]4 30 30 1 30 1 4 1′ − =F y f� �

θ θ Φ

1 0 0

1 1 1

6 28 9 86 6 11

0 98610

1 03848

0 918404

6 284

9 864

6 11

6 28 9 86 6 11

1 2 46 28

2 49 86

2 46 11

3 3 3

3 3 3

3

3

3

�

�

�

�

� �θ θ θ

θ θ θθ θ

θ θ

θ θ θ

θ θ θ

θ

θ

θ

( , ) ( , ) ( , )

,

,

,

, , ,

, , ,

,

,

,

e e e

e e e

e

e

e

−

+ ++

+

=

0

0

0

0

PROCEDIMENTOS DE OTIMIZAÇÃO NÃO-LINEAR

Antes de apresentarmos o método Gauss Newton para obtenção das

estimativas dos parâmetros é importante conhecermos alguns conceitos básicos

importantes.

Em otimização não-linear, uma questão importante é a da localização de

pontos globais ou absolutos. Porém, nenhum dos algoritmos existentes pode

garantir convergência para um ótimo global. Entretanto, uma maneira de tentar

prevenir possíveis soluções locais ou relativas é através da escolha de valores

iniciais satisfatórios. Na prática, não devemos nos contentar, pelo menos de

imediato, com o valor obtido através do processo, mas sim realizar vários testes

partindo-se de diversos valores iniciais diferentes, e comparar os resultados; esse

procedimento ajuda a prevenir possíveis soluções locais do problema. SOUZA

(1986) dá algumas sugestões de como proceder nas aplicações.

Aspectos Gerais de um Algoritmo

Um algoritmo iterativo é um procedimento que partindo de um ponto inicial

especificado ( ) ( )θ θ θ01

0 0= ( ) ( ),..., p , gera uma seqüência de pontos θ ( )1 , θ ( )2 , ..., onde

cada elemento representa uma estimativa do ponto ótimo θ * da função objetivo

(função a ser minimizada), e o que se espera de um bom algoritmo, é que ao ser

aplicado ao problema de interesse convirja rapidamente para θ * .

Um dos aspectos importantes de um algoritmo é a sua taxa de convergência.

Mesmo que seja possível provar teoricamente que uma seqüência converge para

13

um ponto ótimo, esse método será eficiente somente se a convergência ocorrer

com certa rapidez, isto é, se a taxa de convergência for relativamente alta.

Outro aspecto importante de qualquer algoritmo é o teste de convergência,

ou, critério de parada das interações. Um teste bastante utilizado, segundo SOUZA

(1986), é admitir convergência na k-ésima iteração se:

SSE SSEk kθ θ ε( ) ( )−

−

<1

onde ε é uma constante fixada arbitrariamente.

Método de Gauss-Newton

Existem vários métodos para resolver problemas de mínimos quadrados não-

lineares. Para exemplificar usaremos o método de Gauss-Newton por ser um dos

métodos mais conhecidos.

O método de Gauss-Newton , também chamado de método da linearização,

usa a série de Taylor para aproximar o modelo não-linear com termos lineares e

então emprega o método de quadrados mínimos ordinários para estimar os

parâmetros.

O objetivo da série de Taylor é aproximar uma função por meio de uma

função polinomial. No caso escalar, onde ( )f x e x são números reais, a série de

Taylor é dada por

( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )( ) ( )f x f x f x x x

f xx x

f xn

x xf

nx xk k k

kk

nk

k

nn

k

n= + ′ − +

′′− + + − + + −

++

2 12

11

! ! !

( ) ( )

�

α

onde x xk≤ ≤α e ( ) ( )′ =f xd

d xf xk

kk ; o último termo representa o erro de

aproximação de ( )f x pelos n+1 primeiros termos do lado direito. Observe que se

tomarmos a aproximação linear (usando os dois primeiros termos do lado direito)

teremos

( ) ( ) ( )( )f x f x f x x xk k k≅ + ′ − .

Para o caso de sistemas, a série de Taylor é dada por

( ) ( )( ) ( )( ) ( )( )f f F Rk k kθ θ θ θ θ= + − +

14

onde ( )θ k é o vetor aproximação na k-ésima iteração, ( )( ) ( )( )( )F fk

kkθ

∂∂θ

θ=′

e R

representa o erro da aproximação linear.

O leitor poderá conhecer melhor a série de Taylor lendo o capítulo 11 do livro

de cálculo de HOFFMANN (1990).

O método de Gauss-Newton começa com valores iniciais dos parâmetros θ1 ,

θ2 , ..., θp denotados por ( )θ10 , ( )θ2

0 , ..., ( )θp0 . SOUZA (1986) apresenta no capítulo 3

de sua tese algumas técnicas de obtenção de valores iniciais.

Uma vez que os valores iniciais dos parâmetros tem sido obtidos, aproxima-

se a função resposta ( )f θ por meio da expansão da série de Taylor até a 1a ordem

acerca dos valores iniciais ( )θi0 (i = 1, 2, ..., p), isto é,

(10) ( ) ( )( ) ( )( ) ( )( )f f Fθ θ θ θ θ≅ + −0 0 0

onde ( )( ) ( )( )( )F fθ

∂∂θ

θ00

0=′

.

Assim, o problema de minimizar

( ) ( )[ ] ( )[ ] ( )SSE y f y f y fθ θ θ θ= − − = −'2

passa a ser o de minimizar a função

( ) ( )( ) ( )( ) ( )( )SSE y f Fθ θ θ θ θ= − − −0 0 02.

Fazendo-se ( )( ) ( )y f E− =θ 0 0 e ( ) ( )θ θ θ− =0 0∆ temos que

( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )[ ] ( ) ( )( ) ( )[ ]SSE E F E F E Fθ θ θ θ θ θ θ= − = −′

−0 0 02

0 0 0 0 0 0∆ ∆ ∆

( ) ( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( )( ) ( )SSE E E E F F E F Fθ θ θ θ θ θ θ θ θ= ′ − ′ − ′ ′ + ′ ′0 0 0 0 0 0 0 0 0 0 0 0∆ ∆ ∆ ∆ .

Antes de calcular a derivada de ( )SSE θ em relação a ( )∆θ 0 , vamos rever

algumas regras de derivação de matrizes apresentadas no capítulo 12 do livro de

SEARLE (1982).

Seja ′a um vetor linha, x um vetor coluna e A uma matriz qualquer, temos

que

15

( ) ( )∂∂

∂∂x

a xx

x a a′ = ′ =

( )∂∂x

x A A′ = e ( )∂∂x

Ax A= ′

( )∂∂x

x Ax Ax A x′ = + ′ e se A A= ′ teremos ( )∂∂x

x Ax Ax′ = 2 .

Então, a derivada de ( )SSE θ em relação a ( )∆θ 0 é dada por:

( ) ( ) ( )( ) ( ) ( )( ) ( ) ( )( ) ( )( ) ( )∂∂ θ

θ θ θ θ θ θ∆

Φ ∆0

0 0 0 0 0 0 02SSE F E F E F F= − ′ − ′ + ′

( ) ( ) ( )( ) ( ) ( )( ) ( )( ) ( )∂∂ θ

θ θ θ θ θ∆

∆0

0 0 0 0 02 2SSE F E F F= − ′ + ′

( ) ( ) ( )( ) ( )( ) ( ) ( )( ) ( )( )∂∂ θ

θ θ θ θ θ∆

∆0

0 0 0 0 02SSE F F F E= ′ − ′ .

Fazendo ( ) ( )∂∂ θ

θ∆

Φ0

SSE = , obtemos o sistema de equações normais

( )( ) ( )( ) ( ) ( )( ) ( )′ = ′F F F Eθ θ θ θ0 0 0 0 0∆

onde ( )E 0 desempenha o papel da variável dependente y e ( )( )F θ 0 o da matriz X

dos modelos lineares. Em modelos lineares os resíduos são ortogonais as colunas

de X, isto é,

′ =X e Φ .

Em modelos não-lineares os resíduos são ortogonais as colunas do Jacobiano de

( )f θ avaliado à θ θ=�

, isto é,

( ) ( )[ ]′ − =F y f� �

θ θ Φ .

Para o nosso exemplo,

16

( )( ) ( )( ) ( ) ( )( ) ( )′ = ′F F F Eθ θ θ θ0 0 0 0 0∆

1 0 0

1 1 1

6 28 9 86 6 1146 28

49 86

46 11

6 28 9 86 6 11

3 3 3

3 3 3

�

�

�

�

θ θ θθ θ θ

θ θ θ

( , ) ( , ) ( , ), , ,

, , ,

e e e

e e e

( )

( )

( )

( )

1 1 6 28

0 1 9 86

0 1 6 11

46 28 6 28

49 86 9 86

46 11 6 11

1 10

2 20

3 30

4 40

3 3

3 3

3 3

θθ

θ

θ θθ θθ θθ θ

θ θ

θ θ

θ θ

( , )

( , )

( , )

, ,

, ,

, ,

e e

e e

e e

� � � �

−−−−

=

1 0 0

1 1 1

6 28 9 86 6 11

0 98610

1 03848

0 918404

6 284

9 864

6 11

6 28 9 86 6 11

1 2 46 28

2 49 86

2 46 11

3 3 3

3 3 3

3

3

3

�

�

�

�

� �θ θ θ

θ θ θθ θ

θ θ

θ θ θ

θ θ θ

θ

θ

θ

( , ) ( , ) ( , )

,

,

,

, , ,

, , ,

,

,

,

e e e

e e e

e

e

e

−

+ ++

+

.

Se ( )( )F θ 0 apresentar posto coluna completo, o valor de ( )∆θ 0 que minimiza

( )SSE θ é:

( ) ( )( ) ( )( )( ) ( )( ) ( )∆θ θ θ θ0 0 01

0 0= ′ ′−

F F F E .

Utilizando estas estimativas de quadrados mínimos obtém-se o valor de ( )θ 1

por meio de

( ) ( ) ( )θ θ θ1 0 0= + ∆ .

Se o método está trabalhando efetivamente na primeira iteração, ( )( )SSE θ 1

seria menor que ( )( )SSE θ 0 e assim ( )θ 1 seriam melhores estimativas.

Deve-se observar que as estimativas ( )θ 1 não são estimativas de quadrados

mínimos para o modelo não-linear pois o modelo (10) é somente uma aproximação

para o modelo não-linear. O método de Gauss-Newton portanto repete o

procedimento com ( )θ 1 agora como valores iniciais. Isto produz um novo conjunto

de estimativas, denotadas por ( )θ 2 , e uma nova soma de quadrados ( )( )SSE θ 2 . O

processo iterativo é continuado até a diferença entre ( )( )SSE kθ −1 e ( )( )SSE kθ torna-

se negligível.

Agora considere o uso do método de Gauss-Newton num modelo linear de

regressão. Tal modelo pode ser escrito como

y X= +θ ε

17

onde X é a matriz (nxp) das variáveis regressoras. Para o modelo acima, a matriz

Jacobiana é

( )F Xθ = .

Começando com qualquer conjunto arbitrário de estimativas iniciais dos parâmetros

( )θ 0 , o próximo vetor de estimativas ( )θ 1 é

( ) ( ) ( ) ( )( )θ θ θ1 0 1 0= + ′ ′ −−X X X y X

( ) ( ) ( ) ( ) ( )θ θ θ1 0 1 1 0= + ′ ′ − ′ ′− −X X X y X X X X

( ) ( ) ( ) ( )θ θ θ1 0 1 0= + ′ ′ −−X X X y I

( ) ( ) ( ) ( )θ θ θ1 0 1 0= + ′ ′ −−X X X y

( ) ( )θ 1 1= ′ ′−X X X y .

Logo o método de Gauss-Newton, para um modelo linear, converge para os

estimadores de quadrados mínimos numa única iteração de qualquer vetor inicial

( )θ 0 .

Propriedades dos Estimadores

Um fato importante é que o estimador de quadrados mínimos �

θ de θ em (9)

não tem propriedade possuídas por �

β no modelo linear (6). Somente

assintoticamente, que é, quando o tamanho da amostra aumenta para infinito, as

propriedades de �

θ aproximam as propriedades de �

β .

Para amostras finitas, mesmo que yt seja normalmente distribuído acerca de

sua média ( )f x,θ com algum variância desconhecida finita σ 2 para todo t , t =1, 2,

..., n (de modo que o estimador de quadrados mínimos �

θ é também um estimador

de máxima verossimilhança de θ 0 ), �

θ não é uma combinação linear dos yt e logo

em geral não é normalmente distribuído, nem é não-viesado para θ 0 e nem é um

estimador de variância mínima. Assim, o estimador de quadrados mínimos de um

parâmetro num modelo não-linear tem propriedades desconhecidas para amostras

de tamanho finito. Sob estas circunstâncias a teoria assintótica nos diz que o

18

estimador de máxima verossimilhança torna-se mais e mais não-viesado, mais e

mais normalmente distribuídos, e aproxima-se de uma variância mínima a medida

que o tamanho da amostra torna-se cada vez maior.

Infelizmente, não se sabe na prática qual o tamanho que a amostra deveria

ter para que se aproximasse das propriedades assintóticas. Isto se deve ao fato de

que há alguns modelos não-lineares para os quais as propriedades assintóticas são

uma boa aproximação mesmo para amostras pequenas, enquanto há outros

modelos onde as propriedades assintóticas são pobremente aproximadas mesmo

para o que seria considerado ser amostras grandes em termos práticos.

Entretanto, se o estimador de quadrados mínimos de um parâmetro de um

modelo não-linear é somente pouco tendencioso com uma distribuição próxima

àquela de uma distribuição normal e com uma variância excedendo um pouco o

limite da variância mínima, parece razoável falar do estimador como ''comportando-

se próximo ao linear" já que suas propriedades são próximas daquelas esperadas

de um modelo linear, ou falar que o modelo não-linear apresenta um

comportamento próximo do linear.

Então, o objetivo passa a ser o de avaliar se o modelo não-linear de nosso

interesse apresenta um comportamento próximo do linear, isto é, verificar se as

propriedades assintóticas são aplicáveis para o modelo, mesmo em amostras

pequenas.

Uma maneira seria observar a convergência do algoritmo de Gauss-Newton

na obtenção das estimativas dos parâmetros. Assim, se esse algoritmo, partindo de

um ponto inicial arbitrário ( )θ 0 , convergir rapidamente para um valor �

θ , e se �

θ for

bem distante de ( )θ 0 , então isso indica que o modelo tem um comportamento

próximo do linear (lembre-se que o método de Gauss-Newton, para um modelo

linear, converge para os estimadores de quadrados mínimos numa única iteração

de qualquer vetor inicial ( )θ 0 ).

Existem procedimentos sistemáticos para avaliar mais precisamente a não-

linearidade do modelo, como a medida de Box e as medidas de curvatura de Bates

& Watts. Além disso, pode-se realizar estudos com base em simulação que

19

segundo RATKOWSKI (1983) é uma das melhores maneiras de avaliar as

propriedades dos estimadores.

Exemplo:

Utilizou-se os pacotes computacionais SAEG e SAS para calcular as

estimativas de mínimos quadrados para os dados que encontram-se na Tabela 1. O

método de otimização empregado em ambos os programas foi o método de Gauss-

Newton modificado. As saídas dos programas SAEG e SAS encontram-se,

respectivamente, na Figura 1 e 2.

Os valores iniciais para o começo das iterações são

( )θ 0

0 04866

1 03884

0 73792

0 51362

=

−

−−

,

,

,

,

,

valores estes determinados por GALLANT (1987).

As estimativas obtidas são

�

,

,

,

,

θ =

−

−−

0 02588970

1 01567967

1115769714

0 50490286

.

A soma de quadrados residual é

( )SSE�

,θ = 0 03049554

e a estimativa da variância é

( )

sSSE

n p2 0 00117291= − =

�

,θ

.

Deve-se observar que o programa SAEG utiliza o procedimento para

modelos de regressão não-lineares e não para modelos não-lineares, assim os

graus de liberdade da regressão, a soma de quadrados devido a regressão e

conseqüentemente o quadrado médio não estão corretos para o nosso exemplo.

20

Regr egn Y FU NCAO T 1*X 1+T2* X2+T4* EXP(T 3* X3) Ampl i t udes ( T1=- 1, 1, - 0. 04866) (T 2=0, 2,1 . 03884) (T 3=- 2, 1, - 0. 73792) (T 4=- 1, 1 , - 0. 51362) Tol er ânci a = . 0000100 I t er ações P er mit i das = 100 I t er ações E xecut adas = 5 Númer o de O bserv ações = 30 Númer o de P ar âmet r os = 4 P a r â m e t r o s F o r n e c i d o s Par âmet ro s Li mi te s Li mit es Es t i mat i vas I nf er i or es Super i ore s I ni c ia i s T1 - 1. 0000 1. 0000 - . 0487 T2 . 0000 2.0 000 1. 0388 T4 - 1. 0000 1. 0000 - . 5136 T3 - 2. 0000 1. 0000 - . 7379 P a r â m e t r o s d a R e g r e s s ã o Par âmet ro s Coef i c i ente s Desv i os T Si gni f. T1 - . 02590 .0 1262 - 2. 052 . 02520 T2 1. 01570 . 00994 102.1 87 . 00000 T4 - . 50478 .0 2564 - 19. 684 . 00000 T3 - 1. 11467 . 16340 - 6. 822 . 00000 A n á l i s e d e V a r i â n c i a Font es de V ar i aç ão GL Soma d e Quadr ados Quadr ados M édi os F Si gnif . DEVI DO A REGRESSAO 3 . 6884574 . 229486 195. 66 . 00000 RESI DUO 26 . 0304955 . 001173 R2 = . 958

Fi gur a 1 . S aí da d o p r ogr ama S AEG.

21

Non- Li near L east S quar es I t era t i ve P has e Dependent V ar i able Y Met hod: G auss - Newt on I t er T1 T2 T3 S um of S quar es T4 0 - 0. 048660 1. 038840 - 0. 737920 0. 527493 - 0. 813620 1 - 0. 024329 1. 009859 - 0. 913283 0. 036388 - 0. 491402 2 - 0. 025309 1. 014201 - 1. 101293 0. 030562 - 0. 502378 3 - 0. 025884 1. 015663 - 1. 116173 0. 030496 - 0. 504937 4 - 0. 025890 1. 015680 - 1. 115680 0. 030496 - 0. 504901 5 - 0. 025890 1. 015680 - 1. 115698 0. 030496 - 0. 504903 6 - 0. 025890 1. 015680 - 1. 115697 0. 030496 - 0. 504903 7 - 0. 025890 1. 015680 - 1. 115697 0. 030496 - 0. 504903 NOTE: C onv er gence c r i t er io n m et . Non- Li near L east S quar es S ummar y S t at is t i cs Dependent V ar i ab l e Y Sour ce DF S um o f S quar es Mean S quar e Regr ess i on 4 26. 345942106 6. 586485527 Res i dual 26 0.0 30495537 0.0 01172905 Unc or r ecte d T ot al 30 26. 376437643 ( Cor r ec t ed T ot al ) 29 0. 718952907 Par amet er Es t im at e Asympt oti c Asympt ot i c 95 % St d. E r ro r Conf i dence I nte r val Lower Upper T1 - 0. 025889698 0 . 01262383861 - 0. 0518381649 0.0 000587686 T2 1. 015679670 0 . 00993792746 0. 9952521286 1. 0361072105 T3 - 1. 115697129 0. 16354199086 - 1. 4518598482 - 0. 7795344107 T4 - 0. 504902861 0 . 02565720971 - 0. 5576415935 - 0. 4521641277 Asympt ot i c Cor r ela t i on M atr i x Cor r T1 T2 T3 T4 - - - - - - - - -- - - - - - -- - - - - - - - -- - - - - - - - -- - - - - - -- - - - - - - - -- - - - - - - - -- - - - - - -- - - - - - - - -- T1 1 - 0. 627442952 - 0. 085785748 - 0. 136140358 T2 - 0. 627442952 1 0. 3734920647 - 0. 007260901 T3 - 0. 085785748 0. 3734920647 1 0. 5615334631 T4 - 0. 136140358 - 0. 007260901 0. 5615334631 1

Fi gur a 2 . S aí da d o p r ogr ama S AS.

22

Como visto da Figura 2, o SAS imprime os desvios padrão estimados �

σ i e as

correlações �

ρij . Para recuperar a matriz s C2�

, a matriz de variâncias e covariâncias,

usa-se a fórmula

s cij i j ij2 � � � �

= σ σ ρ ,

onde a matriz �

C é definida como

( ) ( )[ ]� � �

C F F= ′−

θ θ1

.

Por exemplo,

( )( )( )s c212 0 01262384 0 00993793 0 627443 0 000078716

�

, , , ,= − = − .

As matrizes s C2�

e �

C são

s C

E E

E E E

E E

2

0 00015936 7 8716 05 0 00017711 4 4095 05

7 8716 05 9 8762 05 0 00060702 1 8514 06

0 00017711 0 00060702 0 026746 0 00235621

4 4095 05 1 8514 06 0 00235621 0 00065829

�

, , , ,

, , , ,

, , , ,

, , , ,

=

− − − − −− − − − −−

− − − −

�

, , , ,

, , , ,

, , , ,

, , , ,

C =

− − −− −−

− −

0 13587 0 067112 0 15100 0 037594

0 067112 0 084203 0 51754 0 00157848

0 15100 0 51754 22 8032 2 00887

0 037594 0 00157848 2 00887 0 56125

.

23

3. TESTES DE HIPÓTESES

Para um melhor entendimento desta seção o leitor poderá ler o capítulo 2 do

livro de SEARLE (1971) ou outro material que aborde inferência estatística.

3.1. TESTE DE WALD

Assumindo que os dados seguem o modelo

( )y f e= +θ 0 ( )e N In~ ,Φ σ 2

considere testando a hipótese

( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ

onde ( )h θ é uma função diferenciável com Jacobiano

( ) ( )H hθ∂

∂θ θ= ′

de ordem q por p. Quando ( )H θ é avaliado à θ θ=�

nós devemos escrever �

H ,

( )� �

H H= θ

e à θ θ= 0 escrevemos H ,

( )H H= θ 0 .

GALLANT (1987) mostra que ( )h�

θ pode ser caracterizada como

( ) ( ) ( )h h H F F F en

p

�

θ θ σ= + ′ ′ +

−0 1 1

onde, ( )F f= ′∂

∂θ θ 0 .

Ignorando o último termo, tem-se

( ) ( ) ( )[ ]h N h H F F Hq

�

~ ,θ θ σ0 2 1′ ′−

assim,

24

( ) ( )[ ] ( )′ ′ ′− −

h H F F H h� �

θ θσ

1 1

2

é (aproximadamente) distribuída como a distribuição de qui-quadrado não-central

com q graus de liberdade e parâmetro de não-centralidade

( ) ( )[ ] ( )

λθ θ

σ=

′ ′ ′− −h H F F H h0 1 1

0

22.

( )n p s− 2 2/ σ tem distribuição de qui-quadrado com n-p graus de liberdade,

( ) ( )n p s

n p−

−2

22

σχ~

e s2 e �

θ são independentes.

Assim, temos (aproximadamente) que a razão

( ) ( )[ ] ( )

( )( )

′ ′ ′

−−

− −h H F F H h

q

n p s

n p

� �

θ θσ

σ

1 1

2

2

2

segue a distribuição F com q graus de liberdade do numerador e n-p graus de

liberdade do denominador e parâmetro de não-centralidade λ , denotado como

( )′ −F q n p, , λ .

Cancelando alguns termos , temos que

( ) ( )[ ] ( ) ( )′ ′ ′

′ −− −

h H F F H h

qsF q n p

� �

~ , ,θ θ

λ1 1

2

Nas aplicações, estimativas �

H e �

C devem substituir H e ( )′ −F F 1 , onde,

( ) ( )[ ]� � �

C F F= ′−

θ θ1

.

Sob a hipótese de ( )H h: θ 0 = Φ verdadeira, teremos que

25

( ) ( )[ ] ( ) ( )′ ′ ′

−− −

−h H F F H h

qsF q n p

� �

~ , ,θ θ1 1

21 .

Assim, a estatística resultante para testar ( )H h: θ 0 = Φ

( )( ) ( )

Wh HCH h

qs=

′ ′−� � � � �

θ θ1

2

é chamada de teste de Wald.

O teste de Wald rejeita a hipótese de nulidade quando a estatística W

exceder o ponto crítico superior α x (100%) da distribuição F com q graus de

liberdade do numerador e n-p graus de liberdade para o denominador, denotado

por ( )F q n p− − −1 1 α; , .

Para o nosso exemplo, considere a hipótese que não haja efeito de

tratamento,

H: θ1 0= contra A: θ1 0≠ .

Assim,

( )h θ θ= 1 ( )h�

,θ = −0 02588970 .

( ) ( ) [ ]H hθ∂

∂θ θ= ′ = 1 0 0 0 ( ) [ ]� �

H h= ′ =∂

∂θ θ 1 0 0 0 .

[ ]� � �

, , , ,

, , , ,

, , , ,

, , , ,� � �

�

, .

HCH

HCH c

′ =

− − −− −−

− −

′ = =

1 0 0 0

013587 0 067112 0 15100 0 037594

0 067112 0 084203 0 51754 0 00157848

0 15100 0 51754 22 8032 2 00887

0 037594 0 00157848 2 00887 0 56125

1

0

0

0

0 1358711

s2 0 00117291= , q = 1.

( )( ) ( )

Wh HCH h

qs=

′ ′−� � � � �

θ θ1

2

26

( )( ) ( )

( )W =− −

=−

0 02588970 0 13587 0 025889701 0 00117291

4 20601

, , ,,

, .

O ponto crítico superior 5% da distribuição F com 1 grau de liberdade para o

numerador e 26=30-4 graus de liberdade para o denominador é

( )F − =1 0 95 1 26 4 22, ; , ,

e assim não rejeita-se a hipótese de nulidade, ou seja, não existe efeito de

tratamento.

No caso de se testar apenas um parâmetro do modelo, resultado análogo

pode ser obtido pela estatística t:

ts c

ii

ii

=

�

θ2

e comparar o valor absoluto com

( )t n p− − −1 1 2α / ; .

No exemplo,

t1

0 0258879700 01262384

2 0509=−

= −,,

, e ( )t − =1 0 975 26 2 0555, ; , .

Deve-se achar atenção do leitor para o fato que o programa SAEG fornece a

significância para 1− α .

3.2. TESTE DA RAZÃO DE VEROSSIMILHANÇA

Um dos métodos mais familiar de testar a hipótese linear

H R r: β = contra A R r: β ≠

para um modelo linear

y X e= +β

é: primeiro, ajustar o modelo completo por quadrados mínimos, obtendo

27

( ) ( )SSE y X y Xfull = −′

−� �

β β

( )�

β = ′ ′−X X X y

1 .

Segundo, reajustar o modelo sujeito a hipótese de nulidade R rβ = , obtendo

( ) ( )SSE y X y Xreduced = −′

−~ ~β β

( ) ( )[ ] ( )~ � �

β β β= + ′ ′ ′ ′ −− − −X X R R X X R r R

1 1 1.

Terceiro, calcular a estatística F

( )

( ) ( )F

SSE SSE q

SSE n p

reduced full

full

=−

−

/

/

onde q é o número de restrições em β (número de linhas em R), p o número de

colunas em X, e n o número de observações - matrizes de posto completo sendo

assumidas.

Se assumir que os erros são normais num modelo não-linear

( )y f e= +θ 0 ( )e N In~ ,Φ σ 2

e derivar o teste da razão de verossimilhança para a hipótese

( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ

obtém-se exatamente o mesmo teste . O teste é calculado como segue.

Primeiro, calcule

�

θ minimizando ( ) ( )[ ] ( )[ ]SSE y f y fθ θ θ= − −'

e faça

( )SSE SSEfull =�

θ .

Segundo, reajuste sob a hipótese de nulidade por calcular

~θ minimizando ( )SSE θ sujeito a ( )h θ = 0

e faça

28

( )SSE SSEreduced = ~θ .

Terceiro, calcule a estatística

( )

( ) ( )LSSE SSE q

SSE n p

reduced full

full

=−

−

/

/.

Exemplo:

Recordando que a função resposta é

( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43 ,

reconsidere a hipótese

H: θ1 0= .

Isto é uma afirmação que os dados seguem o modelo

y x e et tx

tet= + +θ θ θ

2 2 43 .

Ajustando este modelo aos dados da Tabela 1 pelo método de Gauss-Newton

modificado, tem-se

SSEreduced = 0 03543298, .

Previamente tinha-se

SSE full = 0 03049554, .

O teste de razão da verossimilhança é

( )

( ) ( )LSSE SSE q

SSE n p

reduced full

full

=−

−

/

/

( )

L =−

=0 03543298 0 03049554 1

0 03049554 264 210

, , /, /

, .

Comparando com o ponto crítico

( )F − =1 0 95 1 26 4 22, ; , ,

não rejeita-se a hipótese de nulidade ao nível de 95%.

29

4. INTERVALOS DE CONFIANÇA

Um intervalo de confiança de qualquer função paramétrica ( )γ θ pode ser

obtido por inverter qualquer dos testes de

( )H h: θ 0 = Φ contra ( )A h: θ 0 ≠ Φ

descritos na seção prévia. Isto é, para construir um intervalo de confiança

( )100 1− α % para ( )γ θ faça

( ) ( )h θ γ θ γ= − 0

e coloque no intervalo todos aqueles γ 0 para os quais a hipótese ( )H h: θ 0 0= é

aceita ao nível de significância α . O mesmo é verdade para regiões de confiança,

a única diferença é que ( )γ θ e γ 0 serão q-vetores ao invés de serem univariados.

O teste de Wald é fácil para inverter. No caso univariado (q=1), o teste de

Wald aceita a hipótese de nulidade quando

( )γ θ γ

α

�

� � � /

−

′≤

0

2 2s HCH

t

onde

( )[ ] ( )� � �

H = ′ − = ′∂

∂θ γ θ γ∂

∂θ γ θ0

e ( )t t n pα α/ / ;21 1 2= − −− ; isto é, tα /2 denota o ponto crítico superior α / 2 da

distribuição t com n-p graus de liberdade. Aqueles pontos γ 0 que satisfazem a

desigualdade estão no intervalo

( )γ θ α

� � � �

/± ′t s HCH22 .

A situação mais comum é quando deseja-se calcular um intervalo de

confiança de um dos componentes θ i do vetor paramétrico θ . Neste caso o

intervalo é

θ αi iit s c± /

�

22

30

onde �

cii é o i-ésimo elemento da diagonal de ( ) ( )[ ]� � �

C F F= ′−

θ θ1

. Vamos ilustrar com

um exemplo.

Recordando que

( )f x x x e xe,θ θ θ θ θ= + +1 1 2 2 43

vamos fazer um intervalo de confiança em θ1 por inverter o teste de Wald. Pode-se

ler o intervalo de confiança diretamente da saída do programa SAS na Figura 2, ou

calcular como

�

,θ1 0 0258870= −

�

,c11 0 13587=

s2 0 00117291= ,

( )t − =1 0 975 26 2 0555, ; ,

( ) ( )( )�

�

, , , ,/θ α1 22

11 0 02588970 5 0555 0 00117291 0 13587± = − ±t s c

�

�

, ,/θ α1 22

11 0 02588970 0 0259484615± = − ±t s c

logo,

[ ]− 0 051838 0 0000588, ; , .

No caso que ( )γ θ é um q-vetor, o teste de Wald aceita a hipótese de

nulidade quando

( )[ ] ( ) ( )[ ]γ θ γ γ θ γ

α

� � � � �

−′

′ −≤

−0 1 0

2

HCH

qsF

onde ( )F F q n pα α= − −−1 1 ; , .

Para construir um intervalo de confiança para ( )γ θ por inverter o teste de

razão da verossimilhança, faça

( ) ( )h θ γ θ γ= − 0

com γ 0 um q-vetor, e coloque

31

( ) ( ){ }SSE min SSEγ

θ γ θ γ0

0= =: .

O teste de razão da verossimilhança aceita a hipótese de nulidade quando

( ) ( )( ) ( )

LSSE SSE q

SSE n pF

full

full

γ γα

00

=−

−≤

/

/

onde, ( ) ( )SSE SSE min SSEfull = =�

θ θ .

Então, a região de confiança da razão de verossimilhança consiste daqueles

pontos γ 0 com ( )L Fγ α0 ≤ . Sofisticadas técnicas envolvendo rotinas de interpolação

podem ser necessárias para calcular as regiões.

5. TÉCNICAS DE DIAGNÓSTICO

Exceto com relação aos resíduos, as técnicas mais usuais de diagnóstico em

regressão não-linear são simples adaptações da regressão linear. Algumas destas

técnicas serão apresentadas nesta seção.

5.1. MATRIZ DE PROJEÇÃO

A matriz de projeção �

H definida como

( ) ( ) ( )[ ] ( )� � � � �

H F F F F= ′ ′−

θ θ θ θ1

é conhecida como matriz ' ' hat' ' , pois transforma y em �

y é muito usual na detecção

de pontos mais afastados dos demais. Esses pontos, além de serem

potencialmente aberrantes e influentes, em geral exercem grande influência sobre a

matriz de variâncias e covariâncias.

O elemento �

hii de �

H representa a influência da i-ésima resposta sobre o i-

ésimo valor ajustado. Logo, como �

h pii =∑ , supondo que todos os pontos exercem

a mesma influência sobre os valores ajustados, espera-se que �

hii esteja próximo de

p/n. Convém, então, examinar aquelas observações correspondentes aos maiores

valores de �

hii . Hoaglin & Welsch (1978) citados por CORDEIRO & PAULA (1989)

sugerem

32

�

/h p nii ≥ 2

como guia para indicar pontos mais afastados. Entretanto, outras medidas de

diagnóstico sempre serão necessárias para confirmar esse primeiro diagnóstico.

Exemplo:

O programa SAS fornece os elementos �

hii , os quais são apresentados na

Tabela 2. A Figura 3 exibe o gráfico dos valores �

hii contra a ordem das

observações. Destaca-se como aberrante as observações de número 14, 25 e 29.

Tabela 2 - Observações e seus respectivos valores de �

hii .

t �

hii 1 0.08385 2 0.08412 3 0.08572 4 0.08384 5 0.08549 6 0.23676 7 0.08432 8 0.07637 9 0.08423 10 0.07164 11 0.08579 12 0.08313 13 0.24902 14* 0.43044 15 0.07902 16 0.07403 17 0.23203 18 0.08275 19 0.07891 20 0.22430 21 0.07966 22 0.08407 23 0.08569 24 0.08597 25* 0.37072 26 0.07672 27 0.07911 28 0.10938 29* 0.35197 30 0.08095

*Observações que ultrapassaram o limite�

/hii ≥ 4 15 .

33

14

2529

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 5 10 15 20 25 30

Índice da observação

diag

onal

de

H

Figura 3 - Gráfico de �

hii contra a ordem das observações.

5.2. INFLUÊNCIA

É fundamental num modelo de regressão conhecer o grau de dependência

entre o mesmo e as observações para as quais esse é ajustado. Será preocupante

se pequenas perturbações nas observações produzirem mudanças nas estimativas

obtidas. No entanto, se tais perturbações não alterarem os principais resultado,

pode-se confiar no modelo proposto, mesmo desconhecendo o verdadeiro processo

que descreve o fenômeno em estudo.

As técnicas mais conhecidas para detectar esse tipo de influência são

baseadas na exclusão de um único ponto e procuram medir o impacto dessa

perturbação nas principais estimativas do modelo. Esse método, entretanto, pode

não ser adequado se duas ou mais observações forem responsáveis conjuntamente

por um termo extra no preditor linear, na variável resposta ou nas covariáveis. O

34

método gráfico da variável adicionada, que não será aqui apresentado, é

freqüentemente utilizado para avaliar a influência conjunta das observações nas

estimativas individuais dos parâmetros.

As medidas de influência para o modelo normal não-linear são baseadas na

regressão linear. A única diferença, que pode ser relevante, é a substituição da

estimativa ( )�

θ i pela estimativa correspondente ( )

�

θ i1 , que é obtida inicializando o

processo iterativo em �

θ sem a i-ésima observação e tomando a estimativa de um

passo.

Mostra-se que essa estimativa de um passo é dada por

(10) ( ) ( )[ ]( )

� �

� �

�

( )θ θθ θ

i

ii

i i

F F

hf r1

1

1= −

′

−

−

,

onde f i é a i-ésima linha de ( )F�

θ e ri é o resíduo da i-ésima observação.

Uma medida de influência da retirada do i-ésimo ponto sobre a estimativa �

θ j ,

é dada por

( )∆ i j

j i j

jDP

�

� �

�

( )θθ θ

θ=

−

onde ( )DP ⋅ denota o desvio padrão e �

( )θ i j é a j-ésima componente do vetor �

( )θ i .

Uma outra medida de influência muito conhecida e a distância de Cook

definida por

( ) ( ) ( )[ ]( )D F F psi i i= −′

′ −� � � � � �

/( ) ( )θ θ θ θ θ θ 2 .

Usando (10) na expressão acima, obtém-se a forma aproximada

( )Dtp

h

hi

i ii

ii

12

1= ⋅

−

��

�

onde �

�tr

s hi

i

ii

=−1

é o i-ésimo resíduo ordinário studentizado, i = 1, 2, ..., n.

35

O gráfico de Di1 contra a ordem das observações é usual, devendo-se dar

atenção àqueles pontos com o Di1 correspondente mais afastado dos demais. Se o

interesse é detectar pontos influentes nas estimativas individuais �

θ j , j = 1, 2, ..., p,

sugere-se o gráfico de

( )∆ i j

j i j

jDP

�

� �

�

( )θθ θ

θ=

−

contra a ordem das observações.

Exemplo:

O SAS fornece os resíduos ordinários studentizados (�

ti ) restando-nos

calcular os valores da distância de Cook ( Di1 ). Como exemplo de detectar pontos

influentes na estimativa de �

θ1 vamos calcular os valores de ∆ i

�

θ1 .

A Tabela 3 apresenta os valores de �

ti , Di1 e ∆ i

�

θ1 . A Figura 4 exibe o gráfico

dos valores Di1 contra a ordem das observações. Destaca-se como aberrante as

observações de número 6, 25 e 30. A Figura 5 exibe o gráfico dos valores ∆ i

�

θ1

contra a ordem das observações. Destaca-se como ponto influente a observação de

número 30.

Para a primeira observação, temos

tr

s h1

1

111

0 98610 0 989333

0 034247847 1 0 083850570 09862=

−=

−−

= −�

, ,

, ,,

( )( )

( )Dtp

h

h11 1

211

11

2

1

0 098624

0 083850571 0 08385057

0 00022= ⋅−

=−

⋅−

=�

�

�

, ,,

,

( )∆1 1

1 1 1

1

0 025889698 0 0256454901262383861

0 019345�

� �

�

, ( , ),

,( )θ

θ θ

θ=

−=

− − −= −

DP.

36

Tabela 3 - Observações e seus respectivos valores de �

ti , Di1 e ∆ i

�

θ1 .

t �

ti Di1 ∆ i

�

θ1 1 -0,09861 0,00022 -0,019345 2 0,69591 0,01112 -0,13176 3 -1,06729 0,0267 -0,20825 4 0,79931 0,01462 -0,1512 5 1,02315 0,02447 0,20016 6 -1,4925 0,17275 0,25745 7 -0,81877 0,01543 -0,16036 8 1,10731 0,02534 -0,20538 9 -0,02533 0,00001 -0,0049638 10 0,79958 0,01233 -0,14259 11 0,00117 0 0,00022938 12 -0,10352 0,00024 0,19605 13 -0,78325 0,05086 -0,16437 14 0,09136 0,00158 -0,031499 15 -0,49247 0,0052 -0,099712 16 -0,74349 0,01105 0,13673 17 0,84873 0,05441 0,12744 18 -0,64916 0,0095 0,12302 19 1,02218 0,02238 0,20508 20 0,09005 0,00059 -0,020038 21 1,68431 0,06139 0,33539 22 0,84707 0,01646 -0,16028 23 -0,44294 0,0046 -0,086493 24 1,56934 0,05791 -0,26792 25 0,96626 0,13751 0,25018 26 0,2234 0,00104 -0,038986 27 -1,05079 0,02371 -0,21024 28 -0,39749 0,00485 0,067262 29 -0,72145 0,07067 -0,09629 30 -2,94609 0,19112 0,55837

37

30

25

6

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

0,16

0,18

0,2

0 5 10 15 20 25 30


med

ida

de C

ook

Figura 4 - Gráfico de Di1 contra a ordem das observações.

30

-0,3

-0,2

-0,1

0

0,1

0,2

0,3

0,4

0,5

0,6

0 5 10 15 20 25 30


∆ i

�

θ1

Figura 5 - Gráfico de ∆ i

�

θ1 contra a ordem das observações.

38

6. CONSIDERAÇÕES FINAIS

Com a disponibilidade dos programas computacionais SAEG e SAS não há

dificuldades na estimação de parâmetros, em testes de hipóteses, intervalos de

confiança para um parâmetro e testes de diagnóstico.

Assim, o leitor poderá utilizar modelos mais completos, como o do exemplo, o

que resultará em maior precisão no estudo do fenômeno em questão.

Entretanto, deve-se chamar a atenção do leitor para alguns fatos:

1. O cálculo de testes de hipóteses com mais de uma afirmação e de regiões de

confiança não são imediatos.

2. A matriz ( )( ) ( )( )′F Fθ θ0 0 pode ser singular. Neste caso, o leitor poderá "montar" a

( )( )′F θ 0 para que a inversa do produto pela sua transposta não resulte em singular,

como feito no exemplo, ou obter uma inversa generalizada fornecida pelo SAS.

3. Avaliar a não-linearidade do modelo para se ter confiabilidade nas propriedades

do estimador de mínimos quadrados. Este assunto não foi detalhado aqui,

sugerindo-se a leitura do livro de RATKOWSKY (1983).

39

7. REFERÊNCIAS BIBLIOGRÁFICAS

CORDEIRO, G. M., PAULA, G. A. Modelos de regressão para análise de dados

univariados. s. l., 1989. 353p.

GALLANT, A. R. Nonlinear statistical models. New York: John Wiley & Sons, 1987.

611p.

HOFFMANN, L. D. Séries infinitas e aproximação por Taylor. In: ___. Cálculo: um

curso moderno e suas aplicações. 2.ed. Rio de Janeiro: Livros Técnicos e

Científicos, 1990. 2v, cap.11, p166-76. - Tradução de: Calculus for business,

economics, and the social and life science.

NETER, J., WASSERMAN, W., KUTNER, M. H. Applied linear statistical models.

2.ed. Homewood: Richard D. Irwin, 1985. 1127p.

RATKOWSKY, D. A. Nonlinear regression modeling. New York: Marcel Bekker,

1983. 276p.

SEARLE, S. R. Distributions and quadratic forms. In: ___. Linear models. New York:

John Wiley & Sons, 1971. cap.2, p.47-53.

SEARLE, S. R. Miscellanea. In: ___. Matrix algebra useful for statistics. New York:

John Wiley & Sons, 1982. cap.12, p.327-30.

SOUZA, D. G. Algumas considerações sobre regressão não linear. São Paulo,

1986. 122p. Dissertação (Mestrado em Estatística) - Instituto de Matemática e

Estatística, Universidade de São Paulo.

universidade federal do rio grande do sul … · 2009-07-29 · transformado num modelo linear...

Documents