introduÇÃo ao processamento de imagens ou...

22
Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 123 INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU APLICAÇÃO DA ÁLGEBRA LINEAR? Roberto Ribeiro BALDINO 1 Rute Henrique da SILVA 2 RESUMO: Este artigo visa a mostrar a importância da disciplina de Álgebra Linear para um curso de Informática. Aborda-se o processamento de ima- gens sob o aspecto de economizar armazenamento de dados. Trata-se em detalhe um exemplo didático constituído por três imagens com dezesseis pixels cada uma, usando a planilha Excel e uma HP48. A matemática do problema é abordada em profundidade, detalhando a apresentação de Gonzalez & Wintz (1992, §3.6) e motivando o estudo, tanto de matemática, como de estatística. O problema dual que consiste em obter a imagem mais nítida, é abordado brevemente ao final. PALAVRAS-CHAVE: Processamento de imagens; transformada de Hotel- ling; autovetores e autovalores; variância e covariância; histogramas de intensidade; gráficos de correlação; multiplicadores de Lagrange. Introdução Ao escrever este artigo temos em mente uma eventual segunda oportunidade de lecionar Álgebra Linear para a turma de Informática da UNESP, Rio Claro, além da que tivemos em 1997. Entretanto, é possível que o material aqui contido possa ser útil a outros professores em outras circunstâncias. Assumimos conscientemente, embora apenas 1 Grupo de Pesquisa-Ação em Educação Matemática da UNESP (GPA), Rio Claro – SP. E-mail: [email protected]. 2 Instituto de Matemática, Universidade Federal do Rio Grande do Sul, CEP 90570- 040, Porto Alegre – RS.

Upload: lyxuyen

Post on 10-Nov-2018

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 123

INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU APLICAÇÃO

DA ÁLGEBRA LINEAR?

Roberto Ribeiro BALDINO1 Rute Henrique da SILVA2

��RESUMO: Este artigo visa a mostrar a importância da disciplina de Álgebra Linear para um curso de Informática. Aborda-se o processamento de ima-gens sob o aspecto de economizar armazenamento de dados. Trata-se em detalhe um exemplo didático constituído por três imagens com dezesseis pixels cada uma, usando a planilha Excel e uma HP48. A matemática do problema é abordada em profundidade, detalhando a apresentação de Gonzalez & Wintz (1992, §3.6) e motivando o estudo, tanto de matemática, como de estatística. O problema dual que consiste em obter a imagem mais nítida, é abordado brevemente ao final.

��PALAVRAS-CHAVE: Processamento de imagens; transformada de Hotel-ling; autovetores e autovalores; variância e covariância; histogramas de intensidade; gráficos de correlação; multiplicadores de Lagrange.

Introdução

Ao escrever este artigo temos em mente uma eventual segunda

oportunidade de lecionar Álgebra Linear para a turma de Informática da UNESP, Rio Claro, além da que tivemos em 1997. Entretanto, é possível que o material aqui contido possa ser útil a outros professores em outras circunstâncias. Assumimos conscientemente, embora apenas 1 Grupo de Pesquisa-Ação em Educação Matemática da UNESP (GPA), Rio Claro –

SP. E-mail: [email protected]. 2 Instituto de Matemática, Universidade Federal do Rio Grande do Sul, CEP 90570-

040, Porto Alegre – RS.

Page 2: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

124 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

em parte, três dos mitos apontados por Paul Dowling (1998) acerca dos livros textos de matemática.

O mito da referência consiste em supor que a matemática possa se referir a algo que não a ela mesma. Exemplos desse mito são as situações de sala de aula que procuram imitar as compras no super-mercado, já criticadas por Walkerdine (1988) e as situações que procuram explorar a “geometria das pipas”. Quando introduzimos o processamento de imagens na aula de álgebra linear estamos indo nessa direção.

O mito da participação consiste em supor que a matemática justifica sua existência pela via de sua utilidade, quer facilitando as atividades diárias, quer aplicando-se diretamente à atividade profissio-nal. Exemplo disso é a ideologia da cidadania: a matemática seria necessária para formar o cidadão participativo e crítico. Nessa direção vai a suposição de que introduzir processamento de imagens em álgebra linear esteja transmitindo algo útil e necessário ao aluno das disciplinas seguintes e ao profissional de informática.

Finalmente, o mito da construção, consiste em supor que o conhecimento matemático se origina no mundo físico e pode ser adquirido por interação física com esse mundo. O exemplo é uma certa concepção de abstração a partir da ação, derivada de Piaget. Aqui, esse mito consistiria em supor que, por processar algumas imagens passo a passo, o aluno poderá, por exemplo, abstrair a teoria dos operadores simétricos.

Dissemos que assumimos esses mitos apenas em parte porque não os assumimos enquanto conseqüências inevitáveis do uso desse texto em sala de aula. Pensamos, mesmo, que podem ser evitados ou contornados, se for adotada uma pedagogia como a da Assimilação Solidária (Baldino, 1997, 1998). Porém, considerando o texto como texto e não como proposta, certamente ele fica vulnerável às críticas acima.

Problema geral

Suponha que recebemos três imagens, cada uma com dezesseis pixels com intensidades de cinza variando de zero (preto) até 255 (branco)

O problema é então o seguinte: como separar os dados relevantes das três imagens, desprezando dados irrelevantes, para economizar espaço no armazenamento dos dados?

Page 3: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 125

Imagem 1 Imagem 2 Imagem 3

164 164 164 213 204 204 204 103 137 82 127 255

164 213 213 213 204 103 103 103 126 183 228 255

164 164 213 212 228 228 103 103 97 72 228 255

164 213 188 97 228 103 103 198 89 183 228 88

Em um problema “real” as imagens contam-se às dezenas e os

pixels aos milhares. A primeira coisa que se poderia pensar para obter uma imagem mais nítida seria tomar a média das intensidades de cada pixel, de modo a obter uma imagem média. Entretanto, esse proce-dimento só eliminaria os erros de ruído aleatório. Caso as imagens sejam obtidas em circunstâncias de iluminação diferentes ou, mesmo, com o uso de filtros de cores diferentes, pode ocorrer que, o que seria um pixel escuro em uma imagem, apareça com claro na outra e vice versa. A imagem média pode ser completamente opaca, como no caso acima:

Imagem média

168 150 165 190

165 166 181 190

163 155 181 190

160 166 173 128

Portanto, em princípio, as três imagens devem ser conservadas

em arquivo, cada uma contendo certas informações. Daí a necessidade de um método de seleção de dados, como o apresentado aqui. Sempre dirão que, para dezesseis pixels não há necessidade de aplicar esse método. Entretanto, é precisamente por não haver tal necessidade que o

Imagem 1 Imagem 2 Imagem 3

Imagem média

Page 4: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

126 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

exemplo se torna didaticamente transparente e útil para dar sentido à matemática que se ensina.

Na disciplina de álgebra linear que ministramos em 1997, apre-sentamos a solução desse problema geral através de uma seqüência de problemas, cada um com encaminhamento e solução. Pediu-se que os alunos não lessem o encaminhamento antes de pensar em como resol-ver o problema e que não lessem a solução antes de pensar sobre a sugestão do encaminhamento. Pediu-se que trabalhassem sobre o exemplo dado e acompanhassem o que faziam com notação matricial para o caso geral. Os cálculos e gráficos deveriam ser feitos em Planilha Excel, exceto para os autovetores e autovalores, para os quais dispunham de uma HP48. No que segue, os resultados sobre matrizes que usaremos podem ser encontrados nos bons livros de álgebra linear. Faremos referência a Shilov (1961) e Boldrini (1986). Para mais informações sobre processamento de imagens, remetemos o leitor a Crósta (1992) e a Gonzalez & Wintz (1987).

Começamos comparando as imagens quanto à nitidez, de um ponto de vista qualitativo.

1.1 Numeramos os pixels e registramos as três imagens em forma

matricial. A escolha dos números dos pixels é arbitrária. Tomemos a seguinte:

Numeração dos pixels 13 14 15 16

9 10 11 12

5 6 7 8

1 2 3 4

Dispomos as intensidades em forma matricial:

Pixels 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Imagem 1

164 213 188 97 164 164 213 212 164 213 213 213 164 164 164 213

Imagem 2

228 103 103 198 228 228 103 103 204 103 103 103 204 204 204 103

Imagem 3

89 183 228 88 97 72 228 255 126 183 228 255 137 82 127 255

Page 5: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 127

Caso geral:

( ) ( )������

������

=====

mnm

ji

n

nmjiijij

xx

x

xx

xx

��

1

111

11X

No exemplo, m = 3 e n = 16. Lembramos que, em geral n >> m.

Alguns livros representam as imagens em colunas e os pixels em linhas. 1.2 Determinamos as imagens centralizadas. Nas imagens cen-

tralizadas, a intensidade de cada pixel é a diferença entre a intensidade do pixel correspondente da imagem dada, menos a intensidade média da imagem. Essas são imagens hipotéticas no sentido de que não se poderia representá-las preenchendo as dezesseis posições dos pixels com tons de cinza, porque não se pode dispor de “tons negativos”. Calculamos a intensidade média de cada imagem:

Intensidade média

Imagem 1 182

Imagem 2 157

Imagem 3 164 Caso geral:

( ) ( ) .m,,ixm

,n

jjii

m

miii �� 11µ

µ

µµµµ

1

1

1 =�=���

���

====

=

Fazendo as diferenças entre as intensidades dos pixels menos a

intensidade média de cada imagem, temos:

Pixels 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Centrali- zada 1

-19

30 5 -86

-19

-19

30 29 -19

30 30 30 -19

-19

-19

30

Centrali- zada 2

70 -55

-55

40 70 70 -55

-55

46 -55

-55

-55

46 46 46 -55

Centrali- zada 3

-76

18 63 -77

-68

-93

63 90 -39

18 63 90 -28

-83

-38

90

Page 6: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

128 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

Caso geral:

( ) ⋅

������

������

−−

−−

=−===

mmnm1m

iji

n1111

nm1j1iiji

xx

x

xx

x

µµ

µ

µµ

µ

��

�µµµµ−−−−X

1.3 Representamos cada imagem por meio de um histograma de

intensidades, ou seja, consideramos as intensidades em um eixo hori-zontal, variando no intervalo de –130 a +130, dividimos esse intervalo em subintervalos iguais e lançamos na vertical, acima de cada subin-tervalo, o número de pixels cuja intensidade fica compreendida dentro deste subintervalo. Obtemos o que se denominam os espectros das imagens. Os histogramas de intensidade são mostrados nas Figuras 1, 2 e 3.

Figura 1

Espectro da imagem centralizada 1

0 0 01

0 01 1

6

0 0 0 0 0

7

0

2

4

6

8

-130 -110 -90 -70 -50 -30 -10 10 30 50 70 90 110 130 Mais

Intensidade

Qua

ntid

ade

de p

ixel

s

Figura 2

Espectro da imagem centralizada 2

0 0 0 0 0 0 0 0

5

0

3

0 0 0

8

02468

10

-130 -110 -90 -70 -50 -30 -10 10 30 50 70 90 110 130 Mais

Intensidade

Qua

ntid

ade

de p

ixel

s

Page 7: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 129

Figura 3

Espectro da imagem centralizada 3

0 01

3

12

10

2

0

3

0

3

0 0012

34

-130 -110 -90 -70 -50 -30 -10 10 30 50 70 90 110 130 Mais

Intensidade

Qua

ntid

ade

de p

ixel

s

1.4 Consideramos as três intensidades de cada pixel como três

coordenadas de um ponto em R3. É muito difícil e pouco esclarecedor lançar os 16 pontos em um gráfico tridimensional. Isso seria impossível se as imagens fossem mais de três. Porém, é ilustrativo fazer os gráficos das projeções desses pontos de R3 em cada um dos três planos coordenados. Estes são denominados gráficos de correlação, mostra-dos nas Figuras 4, 5 e 6.

Figura 5

Correlação: imagens 2 e 3

-4 14615

139 15

102

3711

16812

-150

-100

-50

0

50

100

-80 -60 -40 -20 0 20 40 60 80

Imagem 2

Imag

em 3

Figura 4

Correlação: imagens 1 e 2

1914 13

956

4

3102

1612

117 8-100

-50

0

50

100

150

-100 -80 -60 -40 -20 0 20 40

Imagem 1

Imag

em 2

Page 8: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

130 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

A seguir, comparamos as imagens do ponto de vista do contraste.

Mostraremos um método quantitativo para essa comparação.

2.1 Calculemos a matriz de covariância. A matriz de cova-

riância é a que tem por elementos os produtos internos dos vetores-

-19 30 5 -86 -19 -19 30 29 -19 30 30 30 -19 -19 -19 30 -19 70 -76 1012 -

1419

1742

70 -55 -55 40 70 70 -55 -55 46 -55 -55 -55 46 46 46 -55 x 30 -55 18 = -1419 3060 -3472

-76 18 63 -77 -68 -93 63 90 -39 18 63 90 -28 -83 -38 90 5 -55 63 1742 -

3472

4529

-86 40 -77

-19 70 -68

-19 70 -93

30 -55 63

29 -55 90

-19 46 -39

30 -55 18

30 -55 63

30 -55 90

-19 46 -28

-19 46 -83

Obs. Exibimos apenas as partes inteiras dos números

-19 46 -38

Figura 6

Correlação: imagens 1 e 3

1

11

102

37

1216

8

9

6

5

1413

15

4

-200

-150

-100

-50

0

50

100

150

-100 -80 -60 -40 -20 0 20 40

Imagem 1

Imag

em 3

Page 9: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 131

linha da matriz das imagens centralizadas divididos pelo número de com-ponentes desses vetores. Equivalentemente, é a matriz produto da matriz das imagens centralizadas por sua transposta, dividindo-se cada elemento pelo número de pixels. Calculando a matriz de covariância, temos:

Caso geral:

( )( ) ( ) ( ) ( )( )⋅� −−======

n

kjkjikiji

mj,ijiji xx

nc,cc

11µµ1TXXC �� µµµµ−−−−µµµµ−−−−

2.2 Interpretemos a matriz de covariância. Os elementos da dia-

gonal principal da matriz de covariância são a média dos quadrados das diferenças entre a intensidade de cada pixel e a intensidade média da imagem de que ele faz parte. Também se pode dizer que esses elementos são os quadrados das normas dos vetores-linha da matriz das imagens centralizadas, divididos por n:

( ) ⋅� =−==

n

kikiii m,,i,x

nc

1

2 1µ1�

Essa média informa o contraste de cada imagem dada, ou seja, o

quanto as intensidades dos pixels se afastam da intensidade média da imagem. O valor de c11 é o menor de todos, porque a imagem 1 tem menos contraste. A imagem 3 é mais contrastada que a 2. Isso se pode constatar comparando os espectros: no da imagem 3 os pixels se “espalham” mais sobre o eixo das intensidades. A imagem 3 é, sob o ponto de vista do contraste, a melhor, porque tem maior variância.

Os elementos fora da diagonal principal da matriz de covariância, sendo proporcionais aos produtos internos dos vetores-linha das imagens centralizadas, indicam se esses vetores estão alinhados e com mesmo sentido (elementos de grande valor positivo), se são ortogonais (elementos próximos de zero) ou se se opõem (elementos de grande valor negativo). Por exemplo, os elementos c12 = c21 são negativos porque o que é claro na imagem 1 tende a aparecer escuro na imagem 2 e vice versa, o mesmo ocorrendo entre as imagens 2 e 3, c2 3 = c3 2 são negativos. A imagem 1 se parece mais com a 3, por isso c13 = c31 são positivos.

Na nomenclatura da estatística, os vetores-linha das imagens são considerados variáveis aleatórias. Os elementos da diagonal principal são denominados variâncias das variáveis aleatórias. Os elementos fora da diagonal dessa a matriz são denominados covariâncias entre as variáveis aleatórias.

Page 10: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

132 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

2.3 Determinemos as retas de tendência nos gráficos de cova-riância. A reta de tendência é a que melhor se adapta aos pontos do gráfico, no sentido dos mínimos quadrados.

Observamos os gráficos de correlação dos pares de imagens: 1 contra 2, 2 contra 3 e 3 contra 1. Nos gráficos de correlação, as intensidades dos pixels de cada par de imagens centralizadas são lançadas em eixos ortogonais, de modo que cada pixel é representado por um ponto de um gráfico do R2. A reta de tendência estendendo-se do terceiro para o primeiro quadrantes mostra a correlação positiva entre as imagens 1 e 3: quando um pixel é escuro (ou claro) em uma dessas imagens, o mesmo pixel tende a ser escuro (ou claro) na outra. As retas de tendência estendendo-se do segundo para o quarto qua-drantes expressam as correlações negativas entre as imagens 1 e 2 e entre 2 e 3: quando um pixel é escuro (claro) na imagem no 3, o mesmo pixel tende a ser claro (escuro) nas outras duas.

Consideremos, agora, as três intensidades de cada pixel das ima-gens centralizadas como as três coordenadas de um ponto em R3. Há, então, dezesseis pontos P1, ..., P16. As coordenadas desses dezesseis pontos sobre um dado eixo são as intensidades dos pixels da imagem centralizada correspondente, representadas sobre este eixo. A “quali-dade” dessa imagem é expressa pela variância das coordenadas sobre os eixos.

O problema é, então, o seguinte: determinar uma nova base (ortonormal) de R3 de modo que, representando os pontos Pj por suas coordenadas nessa nova base, a variância das novas coordenadas sobre os novos eixos sejam as maiores possíveis. Assim as coordenadas dos pontos Pj sobre os novos eixos constituirão espectros de imagens hipotéticas que serão as “melhores” possíveis. Essas são denominadas imagens descorrelacionadas. Calculemos essas imagens no caso do exemplo e façamos os gráficos de correlação.

Consideremos o operador FC de R3 em R3 cuja matriz na base

canônica é C. Como C é simétrica, podemos usar o seguinte teorema de Álgebra Linear:

• Para todo operador auto-adjunto definido em um espaço vetorial de

dimensão finita, existe uma base ortonormal formada por auto-vetores (Boldrini et al.,1986, p. 261).

Este teorema está em todos os bons livros de álgebra linear que

também ensinam a calcular os autovalores e autovetores. Sejam, então,

λ1, λ2, λ3 os autovalores de FC e seja 321 h,h,h uma base ortonormal

Page 11: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 133

de autovetores de FC. Suponhamos que esses autovetores estão escritos em ordem decrescente de seus autovalores. Seja H a matriz de mu-dança de base, ou seja, a matriz que tem por colunas as coordenadas dos vetores da nova base em função da base antiga, que é a base canônica de R3. A matriz H, que expressa os vetores da base nova em função dos vetores da base antiga, também expressa as coordenadas dos pontos na base nova em função das coordenadas na base antiga. As coordenadas dos pontos Pj na base antiga são as colunas da matriz X −−−− µµµµ. Seja Y a matriz cujas colunas são as coordenadas dos pontos Pj na nova base. Então,

HY = X − µ. Como a matriz de mudança de base é ortogonal, a inversa

coincide com a transposta. Então:

Y = HT (X − µ).

A matriz HT é chamada matriz de Hotelling (Gonzalez & Wintz,

1987, p.148). Note que Y tem 3 linhas e 16 colunas. As linhas de Y são novas imagens hipotéticas. É preciso verificar que elas têm as propriedades desejadas.

Para verificar que a primeira dessas imagens é ótima, é preciso mostrar que a variância da primeira linha de Y é máxima. Para obter essa variância, multiplicamos Y por sua transposta e obtemos uma matriz 3x3 cujos elementos diagonais serão as variâncias das linhas de Y multiplicadas por n. Levando em conta que as colunas de H são autovetores de FC, temos:

( )( ) .161

���

���

==−−=

3

2

1

λ000λ000λ

161 HCHXXHYY TTT µµµµµµµµ

Concluímos que as variâncias das imagens descorrelacionadas são os autovalores de C. Portanto esses autovalores são positivos e FC transforma a esfera unitária do R3 em um elipsóide cujos semi-eixos estão situados nas direções dos autovetores e têm por medida os autovalores. Concluímos também, uma vez que os elementos fora da diagonal de YYT são nulos, que as imagens Y são de fato descorre-lacionadas. Verifiquemos que elas são centralizadas:

( )( ) ( ) ( ) 00µµ

µ

11 11 11

1

=�=� ��

���

�� −� =�

��

���� −=�

� −=

== == ==

=m

kik

m

k

m

jkjkik

n

j

m

kkjkik

n

jji

m

kkjkikji

hxhxhy

xhy :segueDe

Page 12: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

134 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

O problema agora reduz-se a saber porque, entre todas as matrizes ortogonais H, esta é a que dá as maiores variâncias das novas imagens hipotéticas.

Representando por z = (z1, z2, z3) a j-ésima coluna da matriz H,

o j-ésimo elemento diagonal de YYT é �==

3

1j,ijijiC zzc)z(Q .

Portanto, para determinar se a primeira coluna de H foi bem escolhida,

devemos mostrar que o primeiro autovetor 1h tem por coordenadas exatamente os valores das variáveis z que maximizam a forma quadrática QC sob a condição de que z = (z1, z2, z3 ) seja um vetor unitário. O seguinte teorema de álgebra linear pode ser usado.

• Os valores estacionários da forma quadrática QC determinada por

um matriz C ocorrem nos autovetores do operador linear simétrico FC associado à matriz C e o valor da forma quadrática em um auto-vetor unitário é o autovalor correspondente a ele. (Shilov, 1961:200).

Para dar ao artigo um caráter de completeza didática facilitando

seu uso em sala de aula, daremos uma demonstração desse resultado. Diz-se que o valor que a forma quadrática QC assume em um particular valor das variáveis é estacionário quando as derivadas parciais em relação às variáveis z1, z2, z3 são nulas. Este teorema tem demons-tração imediata pelo processo dos multiplicadores de Lagrange. Deve-se mostrar também que a segunda coluna de H é formada por valores de z1, z2, z3 que maximizam QC sob a condição de que z = (z1, z2, z3)

seja um vetor unitário e, além disso, seja ortogonal a 1h . A terceira coluna de H será dada pelo vetor unitário perpendicular às duas primeiras colunas.

O método dos multiplicadores de Lagrange diz que os valores estacionários de QC(z) submetida à condição de z ser unitário, ocorrem nos valores das variáveis z1, z2, z3 e λ que anulam as derivadas parciais do lagrangeano em relação a essas variáveis. O lagrangeano é:

( )1λλ 23

22

21

3

1321 −+++�=

=zzzzzc),z,z,z(L

j,ijiji

Calculando e igualando a zero a derivada parcial em relação à i-

ésima variável zi, temos:

3210λ223

1,,izzc ii

jjji ==+�

=

Page 13: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 135

Escrevendo por extenso e incluindo a derivada em relação à λ igualada a zero, obtemos o seguinte sistema linear de quatro equações nas incógnitas z1, z2, z3 e λ:

( )( )

( )��

��

=++=−+++

=+−+=++−

10λ

0λ0λ

23

22

21

333223113

332222112

331221111

zzz

zczczc

zczczc

zczczc

As soluções desse sistema são exatamente os autovetores

unitários do operador FC. Portanto os valores estacionários de QC(z) ocorrem nos autovetores do operador FC. Anotando por < , > o produto interno no R3, a relação entre o operador linear FC e a forma quadrática QC pode ser expressa por:

[ ] .)z(F,z

zc

zc

zc

zzzzczzzcQ C

jjj

jjj

jjj

i jjjii

j,ijijiC ><=

�������

�������

� =��

���

��=�=

=

=

=

= ==3

13

3

12

3

11

3

1321

3

1

3

1

O teorema diz mais ainda, que o valor da forma quadrática em um

autovetor de norma 1 coincide com o autovalor correspondente a esse autovetor. De fato, se z é autovetor unitário de FC e λ é o autovalor correspondente, temos

λλλ =><=><=><= z,zz,z)z(F,z)z(Q CC

Isso conclui a prova do teorema. Como o valor máximo de QC(z) sobre os vetores unitários do R3 é

estacionário, ele ocorre em um autovetor de FC e, sendo máximo, vale

o maior dos autovalores, ou seja, λ1. Porém, QC( 1h ) = λ1 portanto a primeira coluna de H foi bem escolhida. Para provar que a segunda

coluna de H está bem escolhida, devemos mostrar que 2h é um dos vetores unitários z = (z1, z2, z3) que maximizam a forma quadrática

QC(z), porém sujeitos à condição adicional de serem ortogonais a 1h .

Não é óbvio que esse máximo ocorra no vetor 2h e o seguinte raciocínio é necessário. Seja V1 o complemento ortogonal do espaço

Page 14: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

136 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

gerado pelo vetor 1h . Sendo FC um operador simétrico, V1 é um subespaço invariante pelo operador FC. Restringimos FC e a forma quadrática QC a V1 e aplicamos novamente o teorema às restrições FC/V1 e QC/V1. O máximo de QC/V1 nos vetores unitários de V1 ocorre em um autovetor v de FC/V1. Porém, esse autovetor, v também é autovetor de FC. Então o valor de QC(v) só pode ser um dos autovalores

321 λλλ ≥≥ . Se QC(v) = λ1, teríamos dois autovetores ortogonais v e

1h com mesmo autovalor; então o segundo autovalor λ2 coincide com

λ1 e QC(v) = λ2. Se QC(v) = λ3, como 2h e 3h pertencem a V1, QC(v) só pode ser máximo se λ2 = λ3. Em qualquer caso, pois,

QC(v) = λ2, ou seja, λ2 é máximo de QC/V1. Como QC( 2h ) = λ2, segue

que 2h foi bem escolhido. No caso do exemplo, usando uma HP48, obtivemos os

autovalores da matriz C:

λ1 = 296 λ2 = 8.059 λ3 = 246

e os seguintes autovetores escritos em colunas:

1 0,410457 0,111914

0,124708 -0,81088 1

-0,30933 1 0,76494 Como as colunas são autovetores de um operador simétrico FC

com autovalores diferentes, elas são vetores ortogonais. Em seguida reordenamos os autovetores segundo a ordem decrescentes dos auto-valores e os normalizamos, de modo que cada um ficasse unitário. Obtivemos, assim, a matriz ortogonal H:

0,303750995 0,948628416 0,088540763

H = -0,60007362 0,118301345 0,791148806

0,740031743 -0,293443214 0,605181048 Calculamos, em seguida as imagens descorrelacionadas:

0,303750995 -0,600073623 0,740031743

HT (X −−−−µµµµ) = 0,948628416 0,118301345 -0,293443214 X

0,088540763 0,791148806 0,605181048

Page 15: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 137

-19 30 5 -86 -19 -19 30 29 -19 30 30 30 -19 -19 -19 30

X 70 -55 -55 40 70 70 -55 -55 46 -55 -55 -55 46 46 46 -55 =

-76 18 63 -77 -68 -93 63 90 -39 18 63 90 -28 -83 -38 90

-104 56 81 -107 -98 -116 89 109 -62 56 89 109 -54 -95 -61 109

= 13 17 -20 -54 10 18 4 -5 -1 17 4 -4 -4 12 -1 -4 = Y.

8 -29 -4 -22 13 -2 -2 14 12 -29 -2 14 18 -15 12 14

Os gráficos de correlação das imagens descorrelacionadas são os

mostrados na Figura 7:

Figura 7

Imagens descorrelacionadas 1 e 2

4

139

-151 5146 2 10 7 11

12 168

3

-60

-40

-20

0

20

40

-150 -100 -50 0 50 100 150

Imagem 1

Imag

em 2

Imagens descorrelacionadas 1 e 3

-21,98-14,93

812 16

3 7

11

102

159

135

1

6

-40

-30

-20

-10

0

10

20

30

-150 -100 -50 0 50 100 150

Imagem1

Imag

em 3

Imagens descorrelacionadas 2 e 3

63

4210

14

711

159

8 16

151312

-40

-30

-20

-10

0

10

20

30

-60 -50 -40 -30 -20 -10 0 10 20 30

Imagem 2

Imag

em 3

Page 16: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

138 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

Note que nos gráficos das imagens descorrelacionadas os pixels se distribuem uniformemente pelos quatro quadrantes: o que é escuro em uma imagem pode ser claro ou escuro em outra. As retas de regressão são horizontais. Note que o espectro da imagem 1 é consi-deravelmente mais amplo que os das outras duas, o que reflete o fato de que o autovalor dessa imagem é cerca de trinta vezes maior que os das outras duas. Nas imagens 2 e 3 os pixels se agrupam perto da origem, refletindo o fato de que os autovalores correspondentes são próximos.

A conclusão é a seguinte: a imagem descorrelacionada 1 contém os dados relevantes das três imagens iniciais. As outras duas são “lixo”.

Podemos, agora, reconstruir a matriz das imagens iniciais a partir das duas primeiras imagens descorrelacionadas, desprezando a última para notar visualmente o que terá se perdido por desprezar uma imagem. Em seguida faremos o mesmo conservando apenas a primeira imagem descorrelacionada e desprezando as outras duas. Também podemos estimar o erro médio quadrático cometido em cada caso.

De Y = HT (X−−−−µµµµ) pode-se recuperar exatamente as imagens iniciais. Cada uma delas é dada por uma linha da matriz 3x16: X = HY + µµµµ. Se desprezarmos a terceira imagem descorrelacionada reteremos uma matriz Y2, formada pelas duas primeiras linhas da matriz Y. A partir dessa matriz, reconstituem-se três imagens através das linhas da matriz 3x16 X2 = H2 Y2 + µµµµ, onde H2 é obtida de H pela supressão da última coluna. Como a terceira imagem descorrelacio-nada, a que foi desprezada, tinha variância pequena, ou seja, não continha dados relevantes, espera-se que as três imagens reconstituídas nas linhas de X2 não sejam muito diferentes das imagens iniciais. Entretanto, em nosso caso, a variância da primeira imagem Y é muito maior que as das outras duas. Isso sugere que devamos reter apenas esta e reconstituir as três imagens iniciais apenas a partir dela.

A reconstituição das imagens iniciais nos dá: 0,303751 0,948628 0,088541

HY + µµµµ = -0,60007 0,118301 0,791149

0,740032 -0,29344 0,605181

-104 56 81 -107 -98 -116 89 109 -62 56 89 109 -54 -95 -61 109

Page 17: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 139

X 13 17 -20 -54 10 18 4 -5 -1 17 4 -4 -4 12 -1 -4

8 -29 -4 -22 13 -2 -2 14 12 -29 -2 14 18 -15 12 14

183 183 183 183 183 183 183 183 183 183 183 183 183 183 183

+ 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158

165 165 165 165 165 165 165 165 165 165 165 165 165 165 165

164 213 188 97 164 164 213 212 164 213 213 213 164 164 164 213

= 228 103 103 198 228 228 103 103 204 103 103 103 204 204 204 103 = X.

89 183 228 88 97 72 228 255 126 183 228 255 137 82 127 255

Desprezando a terceira imagem descorrelacionada, temos

0,303751 0,948628

H2 Y2 + µ = -0,60007 0,118301

0,740032 -0,29344

-104 56 81 -107 -98 -116 89 109 -62 56 89 109 -54 -95 -61 109

X 13 17 -20 -54 10 18 4 -5 -1 17 4 -4 -4 12 -1 -4

183 183 183 183 183 183 183 183 183 183 183 183 183 183 183

+ 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158

165 165 165 165 165 165 165 165 165 165 165 165 165 165 165

163 216 188 99 163 164 213 211 163 216 213 212 162 165 163 212

= 221 126 106 215 218 230 105 92 195 126 105 92 189 216 194 92 = X2.

84 201 231 101 89 73 229 246 119 201 229 246 126 91 120 246

Desprezando as duas últimas imagens descorrelacionadas, obtemos:

0,303751

H1 Y1 + µµµµ = -0,60007

0,740032

Page 18: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

140 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

X -104 56 81 -107 -98 -116 89 109 -62 56 89 109 -54 -95

183 183 183 183 183 183 183 183 183 183 183 183 183 183 183

+ 158 158 158 158 158 158 158 158 158 158 158 158 158 158 158

165 165 165 165 165 165 165 165 165 165 165 165 165 165 165

15

1 200 207 150 153 147 210 216 164 200 210 216 166 154 164 216

= 220

124 109 222 216 227 104 92 195 124 104 92 190 214 194 92 = X1.

88 206 225 85 92 78 230 245 119 206 230 245 125 95 119 245

A seguir, nas Figuras 8, 9 e 10, reconstituímos as imagens usando

os tons de cinza.

Imagens recuperadas a partir das duas primeiras imagens descorrelacionadas

Imagem 1 Imagem 2 Imagem 3

Imagens iniciais Figura 8

Page 19: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 141

As três imagens finais são quase iguais às iniciais, porém, note

que elas foram obtidas a partir de apenas uma imagem descorre-lacionada e de uma coluna da matriz H. Para reconstituí-las, basta arquivar uma imagem em vez de três. As três imagens finais perdem alguns dados. Recalculando a matriz de covariância temos:

1012 -1419 1742 744 -1469 1812

C = -1419 3060 -3472 , C1 = -1469 2902 -3579

1742 -3472 4529 1812 -3579 4414 Nota-se que os elementos diagonais de C1 são ligeiramente me-

nores que os de C, o que indica que as imagens perderam um pouco do contraste.

Calculemos então o erro médio quadrático cometido ao substi-tuirmos as três imagens iniciais pelas três imagens finais, retendo-se apenas uma imagem descorrelacionada.

Suponhamos dadas m imagens, cada uma formada por n pixels e suponhamos que, para a construção das m imagens finais, retivemos as S primeiras colunas de H e as S primeiras linhas de Y. Sejam

.yhx

,yhx

i

S

kjkki

Sji

i

m

kjkkiji

µ

µ

1

1

+��

���

��=,+=

+���

����=,+=

=

=

µµµµ

µµµµ

SSS YHX

HYX

Imagens recuperadas a partir da primeira imagem descorrelacionada Figura 10

Page 20: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

142 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

Lembrando que os variâncias das imagens descorrelacionadas são os autovalores da matriz C, temos:

( )

( ) .sxn

.n)h(nnhh

yyhhyhyh

yhyhyh

yhyhsx

m

Skk

n,m

j,i

Sjiji

m

Skk

m

Skk

m

iki

m

i

m

Sr,kkrkriki

m

i

m

Sr,k

n

jjrjkriki

n,m

j,i

m

Srjrri

m

Skjkki

n,m

j,i

m

Skjkki

n,m

j,i

S

kjkki

m

kjkki

n,m

j,ii

S

kjkkii

m

kjkki

n,m

j,i

Sjiji

�=� −

�=� �=� ��

���

��=

� ��

���

�� �=� �

��

���

��=

� ��

���

��=� �

���

��−�=

� ��

���

�−�

��

����−+�

��

����=� −

+==

+=+= == ++

= ++ == +=+=

= +== ==

= ===

11

211 1

2

1 1

1 1 11 11

1

2

11

2

11

1

2

111

2

λ1

λλλδ

µµ

Logo,

Portanto, o erro médio quadrático das imagens aproximadas em

relação às imagens iniciais vale a soma dos autovalores correspon-dentes às imagens descorrelacionadas desprezadas. No exemplo:

%,,296λλλ

λλ321

32 =++

+ %.,852

λλλλ

321

3 =++

Se dobrássemos o número de dados arquivados, guardando duas

imagens em vez de uma, o ganho seria só de 3 pontos percentuais. O problema dual consistiria em representar as imagens através

dos vetores coluna de X e os pixels através dos vetores linha. A matriz X seria, no caso do exemplo, 16x3 e a matiz H seria 16x16. Os elementos diagonais de C estariam associados à variância dos pixels. Nos gráficos de correlação, os pixels seriam dispostos ao longo dos eixos e cada imagem seria um ponto do gráfico. Haveria (16x15)/2 = 120 desses gráficos. Porém, do ponto de vista da qualidade das imagens, os pixels de grande variância deveriam ser considerados maus e, na reconstituição das imagens iniciais, deveriam ser desprezados. Nesse caso, não estaríamos interessados em minimizar o erro médio quadrático, mas, sim, em minimizar a soma das variâncias dos pixels das imagens reconstituídas. Ora, essas variâncias são os autovalores de C. Portanto, as linhas a serem eliminadas de Y para a reconstituição das imagens seriam, agora, as que correspondem aos maiores

Page 21: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

Rev. Mat. Estat., São Paulo, 19: 123-144, 2001 143

autovalores. Isso significa que erro médio quadrático deve, agora, ser máximo, ao contrário do que visávamos no exemplo anterior. Agradecimentos

Ao Prof. Dr. Aparecido Nilceu Marana pelas sugestões.

BALDINO, R. R., SILVA, R. H. Introduction of image processing or linear algebra applications? Rev. Mat. Estat. (São Palulo) v.19, p.123-144, 2001.

��ABSTRACT: This paper tries to show the relevance of a Linear Algebra

course for computer science students. We focus on saving data storage in image processing. Using an Excel spreadsheet and an HP48 calculator we develop a didactical example consisting of three images with sixteen pixels each. We make a thorough mathematical treatment of Gonzalez & Wintz (1992, §3.6) in support of mathematical as well as of statistical studies. The dual problem, consisting in obtaining the sharpest image is dealt with briefly at the end.

��KEYWORDS: Image processing; Hotelling transform; eigenvalues and eigenvectors; variance and covariance; intensity histograms; correlation graphics; Lagrange multipliers.

Referências bibliográficas

BALDINO, R. R. Student Strategies in Solidarity Assimilation Groups. In: ZACK, V., MOUSLEY, J., BREEN, C. Develping practice: teacher's inquiry and educational change Geelong: Deakin University, 1997. p.123-34. BALDINO, R. R. School and surplus-value: contribution from a Third World country. In MATHEMATICS EDUCATION AND SOCIETY, 1, 1998, Nottingham. Proceedings... Nottingham:University of Nottingham, 1998. p.73-82. BOLDRINI, J. L. et al. Álgebra Linear. 3. ed. São Paulo: Harbra, 1986. 411p. CRÓSTA, A. P. Processamento digital de imagens de sensoreamento remoto. Campinas: IG-UNICAMP, 1992. 170p.

Page 22: INTRODUÇÃO AO PROCESSAMENTO DE IMAGENS OU …jaguar.fcav.unesp.br/RME/fasciculos/v19/A7_Artigo.pdf · em sala de aula. Pensamos, ... uma imagem mais nítida seria tomar a média

144 Rev. Mat. Estat., São Paulo, 19: 123-144, 2001

DOWLING, P. The sociology of mathematics education. London: The Falmer Press, 1998. 350p. GONZALEZ, R. C., WINTZ, P. Digital images processing, 2. ed. Reading: Addison Wesley, 1987. 503p. SHILOV, G. E. Linear spaces. Englewood Cliffs: Prentice-Hall, 1961. 253p. WALKERDINE, V. The mastery of reason. Routledge: Chapman & Hall, 1988. 282p.

Recebido em 23.10.1998