respostas dos exercícios selecionados

Processamento digital de imagem3ª edição

Respostas dos exercícios selecionados Rafael C. Gonzalez Richard E. Woods Prentice Hall Upper Saddle River, NJ 07458 www.imageprocessingplace.com Copyright © 1992-2008 R. C. Gonzalez and R. E. Woods

Capítulo 1

Introdução

1.1 Sobre este manual

Este manual condensado contém soluções detalhadas de todos os problemas assinalados com uma

estrela em Processamento digital de imagem, 3ª edição.

1.2 Projetos

O instrutor pode solicitar que você prepare projetos computacionais nos seguintes formatos:

Página 1: folha de rosto.

• Título do projeto

• Número do projeto

• Número do curso

• Nome do aluno

• Data de entrega

• Data da solicitação

• Resumo (não exceder uma ou duas páginas)

Página 2: uma ou duas páginas (máximo) de discussão técnica.

Página 3 (ou 4): discussão dos resultados. Uma ou duas páginas (no máximo).

Resultados: resultados das imagens (impressas em geral em uma impressora a laser ou a jato de

tinta). Todas elasdevem conter o número e o título referidos na discussão dos resultados.

Anexo: As listagens do programa, com foco em qualquer código original elaborado pelo aluno. Para

resumir, funções e rotinas fornecidas para o aluno são chamadas pelo nome, mas sem o código

incluído.

1

Layout: Todo o relatório deve estar em folhas de tamanho padrão (por exemplo, tamanho da letra nos

EUA ou A4 na Europa), grampeadas com três ou mais grampos na margem esquerda para formar um

folheto, ou ligadas usando produto padrão de plástico transparente.

1.3 Sobre o site livro

O site da companhia: <www.prenhall.com/gonzalezwoods>, ou o site espelho:

<www.imageprocessingplace.com>, é um valoroso auxílio de ensino, pois inclui material visto

anteriormente em sala de aula. Em particular, a revisão do material sobre probabilidade, matrizes,

vetores e sistemas lineares foi preparado usando a mesma notação que no livro, e está focada em áreas

que são diretamente relevantes para as discussões do texto. Isso permite ao instrutor atribuir o

material como leitura independente, e não gastar mais do que o total de um período letivo revendo

esses assuntos. Outra característica principal é o conjunto de soluções para os problemas marcados

com uma estrela no livro.

Essas soluções são bastante detalhadas e foram preparadas com a ideia de ser utilizadas como apoio

pedagógico. A disponibilidade on-line de projetos e imagens digital libera o instrutor de preparar

experimentos, dados e apostilas para os alunos. O fato de a maioria das imagens do livro está

disponível para ser baixada aumenta ainda mais o valor do site como recurso didático.

2

http://www.prenhall.com/gonzalezwoods

Capítulo 2

Soluções de problemas

Problema 2.1

O diâmetro, x, da imagem de retina correspondente ao ponto é obtido a partir de triângulos

semelhantes, como mostrado na Figura 2.1. Isto é,

o que dá x = 0,085 d. A partir da discussão na Seção 2.1.1, e tomando alguma liberdade de

interpretação, podemos pensar que a fóvea seja uma matriz sensora quadrada, tendo uma ordem de 337

mil elementos, que se traduz em uma matriz de tamanho de 580 × 580 elementos. Assumindo um

espaçamento igual entre os elementos, isto dá 580 elementos e 579 espaços em uma linha de 1,5

milímetros de comprimento. O tamanho de cada elemento e de cada espaço é, então, s = [(1,5 mm) /

1159] = 1,3 × 610 m. Se o tamanho (sobre a fóvea) do ponto digitalizado for menor que o tamanho de

um elemento de resolução única, assume-se que o ponto será invisível a olho nu. Em outras palavras, o

olho não irá detectar um ponto se o seu diâmetro, d, for tal que 0,085 (d) <1,3 × 610 m, ou d < 15,3 ×

610 m.

Problema 2.3

A solução é

3

Problema 2.6

Uma solução possível é equipar uma câmera monocromática com um dispositivo mecânico que coloca

sequencialmente um filtro de passagem vermelho, verde e azul na frente da lente. A resposta mais

forte da câmera determina a cor. Se todas as três respostas forem aproximadamente iguais, o objeto

fica branco. Um sistema mais rápido é a utilização de três câmeras diferentes, cada uma equipada com

um filtro individual. A análise então seria baseada na apuração da resposta de cada câmera. Esse

sistema seria um pouco mais caro, mas mais rápido e confiável. Observe que as duas soluções

assumem que o campo de visão da câmera(s) é tal que fica completamente preenchido por uma cor

uniforme, ou seja, a câmera (s) fica (ão) focada em uma parte do veículo em que apenas a sua cor é

vista. Seria necessária uma análise mais aprofundada para isolar a região de cor uniforme, que é o

único ponto de interesse para resolver este problema.

Problema 2.9

(a) O montante total dos dados (incluindo o bit de início e o de parada) numa imagem de 8 bits, 1024

× 1024, é (1024)² × 8 + 2 bits. O tempo total necessário para transmitir esta imagem através de um link

de transmissão é de 56 K (1024)² × (8 + 2) / 56000 = 187,25 s. ou cerca de 3,1 min.

(b) Em 3 000 K o tempo cai para cerca de 3,5 s.

Problema 2.11

Sendo p e q, conforme mostrado na Figura 2.11. Então, (a) S1 e S2 não são -4; porque q não está no

conjunto N4 (p); (b) S1 e S2 são -8; porque q está no conjunto N8 (p), (c) S1 e S2 são -m, porque (i) q

está em ND (p), e (ii) o conjunto N4 (p) ∩ N4 (q) está vazio.

4

Problema 2.12

A solução deste problema consiste em definir todas as formas possíveis de vizinhança para ir do

segmento diagonal para um segmento correspondente -4 como ilustra a Figura 2.12. O algoritmo

simplesmente procura a combinação apropriada cada vez que um segmento diagonal é encontrado na

fronteira.

Problema 2.15

(a) Quando V = {0,1}, o traçado -4 não existe entre p e q porque é impossível ir de p a q, passando ao

longo de pontos que são adjacentes -4 e que também têm valores de V. A Figura 2.15 (a) mostra essa

condição, não é possível alcançar q. O menor traçado -8 é mostrado na Figura 2.15; (b) seu

comprimento é de 4. O comprimento do traçado -m mais curto (indicado pelo tracejado) é 5. Ambos os

traçados mais curtos são únicos neste caso.

5

Problema 2.16

(a) A Figura 2.16 mostra o menor traçado -4 entre um ponto p com coordenadas (x, y) e um ponto q

com coordenadas (s, t), onde a hipótese é que todos os pontos ao longo do traçado são de V. O

comprimento dos segmentos do traçado é | X - s | + |y - t|, respectivamente. O comprimento do traçado

total é | x - s | + |y - t|, o que reconhecemos como a definição da distância 4D , como dado na Equação

2.5-2. (Lembre-se que essa distância é independente de quaisquer traçados que possam existir entre os

pontos.)

Naturalmente, à distância 4D é igual ao comprimento do traçado -4 mais curto quando o comprimento

do traçado é | x - s | + |y - t|. Isso ocorre sempre que podemos ir de p para q por meio de um traçado,

cujos elementos (1) são de V, e (2) estão dispostos de tal forma que possamos percorrer o traçado de p

para q alternando em pelo menos duas direções (por exemplo, para a direita e para cima).

Problema 2.18

Com referência à Equação 2. 6 - 1, considere que H indica o operador de soma, e 1S e 2S indicam duas

áreas diferentes de subimagem do mesmo tamanho, e 1S + 2S indicam a soma pixel a pixel

correspondente aos elementos em 1S e 2S, como explicado na Seção 2.6.1. Note que o tamanho da

vizinhança (isto é, o número de pixels) não é alterado por essa soma pixel a pixel. O operador H

computa a soma de valores de pixels em uma determinada vizinhança. Então, H (1aS + 2bS) significa:

(1) multiplique os pixels em cada uma das áreas de subimagem pelas constantes mostradas; (2)

adicione

os valores pixel a pixel de a1S e b2S (que produzem uma única área de subimagem), e (3) calcule a

soma dos valores de todos os pixels nesta única área de subimagem. Deixe a1p e b2p indicarem dois

pixels arbitrários (mais correspondentes) a1S + b2S. Então podemos escrever

6

que, segundo a Equação 2.6-1, indica que H é um operador linear.

Problema 2.20

Da Equação 2.6-5, em qualquer ponto (x, y),

Então

Mas todos os fi são a mesma imagem, assim E {fi} = f. Além disso, é dado que o ruído tem média

zero, então E {ηi} = 0. Assim, conclui-se que E {g} = f, o que comprova a validade da Equação 2.6-6.

Para provar a validade da Equação 2.6-7, considere a equação anterior novamente:

Sabe-se da teoria de variáveis aleatórias que a variância da soma das variáveis aleatórias é a soma das

variâncias dessas variáveis não relacionadas (Papoulis 1991). Como os elementos de f são constantes e

os de ηi são descorrelacionados, então

O primeiro termo do lado direito é 0 porque os elementos de f são constantes. Os vários σ2η são

apenas amostras de ruído, que tem a variância σ2η. Assim, σ2η = σ2η,e temos

que comprova a validade da Equação 2.6-7.

7

Problema 2.22

Façamos com que g (x, y) indique a imagem de ouro, e f (x, y) indique qualquer imagem de entrada

adquirida durante operação de rotina do sistema. A detecção de alteração por meio de subtração

baseia-se no cálculo da diferença simples d (x, y) = g(x, y) – f (x, y). A imagem resultante, d (x, y),

pode ser usada de duas maneiras fundamentais para a detecção de alterações. Uma maneira é a análise

pixel a pixel. Neste caso, dizemos que f (x, y) está "suficientemente perto" da imagem de ouro, se

todos os pixels em d (x, y) estiverem em determinado limiar da banda [Tmin, Tmax], em que Tmin é

negativo e Tmax é positivo. Normalmente, o mesmo valor do limiar é usado tanto para diferenças

positivas e negativas, assim temos uma banda [-T, T], na qual todos os pixels de d (x, y) devem

aparecer em ordem para que f (x, y) seja declarado aceitável. A segunda abordagem principal é

simplesmente a soma de todos os pixels d (x, y)| e a comparação da soma contra um limiar Q. Note que

se deve usar o valor absoluto para evitar erros de eliminação. Como este é um teste muito incipiente,

iremos nos concentrar na primeira abordagem.

Há três fatores fundamentais que precisam de um controle rígido para que a inspeção baseada em

diferença funcione: (1) registro adequado; (2) iluminação controlada; e (3) níveis de ruído baixos o

suficiente para que os valores das diferenças não sejam muito afetados pelas variações devido ao

ruído. A primeira condição chama a atenção basicamente para a exigência de que as comparações

sejam feitas entre pixels correspondentes. Duas imagens podem ser idênticas, mas se em relação uma à

outra estiverem deslocadas,

não faz sentido comparar as diferenças entre elas. Muitas vezes, são fabricadas dentro do produto

marcações especiais para o alinhamento mecânico ou com base na imagem.

A iluminação controlada (note que a ‘iluminação’ não se limita à luz visível) é importante obviamente,

porque alterações na iluminação pode afetar drasticamente os valores em uma imagem de

8

diferença. Uma abordagem frequentemente utilizada em conjunto com controle de iluminação é a de

escala de intensidade com base em condições reais. Por exemplo, os produtos poderiam ter um ou

mais patches pequenos de uma cor rigidamente controlada, e a intensidade (e talvez até mesmo a cor)

de cada pixel em toda a imagem seria modificada com base na intensidade real versus a esperada e/ou

a cor dos patches na imagem que está sendo processada.

Finalmente, o conteúdo de ruído de uma imagem de diferença tem que ser baixo o suficiente para que

não afete materialmente as comparações entre as imagens de ouro e de entrada. Há necessidade de

muito esforço para reduzir os efeitos do ruído. Outra abordagem (por vezes complementar) é a

implementação de técnicas de processamento de imagem (por exemplo, image averaging) para reduzir

o ruído.

Obviamente que há um número de variações condicionais do tema básico que acabamos de descrever.

Por exemplo, inteligência adicional pode ser implementada na forma de testes que são mais

sofisticados que comparações limiares pixel a pixel. A esse respeito, uma técnica usada com

frequência é subdividir a imagem de ouro em diferentes regiões e executar testes (geralmente mais que

um) distintos em cada uma das regiões, com base no conteúdo esperado dela.

Problema 2.23

(a) A resposta é mostrada na Figura 2.23.

Problema 2.26

Da Equação 2.6-27 e da definição de núcleos separados,

onde

Para um valor fixo de x, essa equação é reconhecida como a transformada 1-D ao longo de uma linha

de f(x, y). Fazendo x variar de 0 a M - 1 calculamos a matriz inteira T (x, v). Então, substituindo essa

matriz na última linha da equação anterior temos a transformada 1-D ao longo das colunas de T (x,

v). Em outras palavras, quando um núcleo é separável, podemos calcular a transformada 1-D ao longo

9

das linhas da imagem. Em seguida, calculamos a transformada 1-D ao longo das colunas deste

resultado intermediário para obter a transformada 2-D final, T (u, v). Obtemos o mesmo resultado

calculando a transformada 1-D ao longo das colunas de f (x, y), seguida pela transformada 1-D ao

longo das linhas de um resultado intermediário.

Esse resultado tem um papel importante no Capítulo 4, quando discutiremos a transformada de Fourier

2-D. Da Equação 2.6-33, a transformada de Fourier 2-D é dada por

É fácil verificar que o núcleo da transformada de Fourier é separável (Problema 2.25), assim, podemos

escrever esta equação como

onde

é a transformada de Fourier 1-D ao longo das linhas f(x, y), quando fazemos x = 0,1,. . . , M - 1.

10

Capítulo 3


Problema 3.1

Dado que f indica a imagem original, primeiro subtraia o valor mínimo de f indicado por fmin de f para

fornecer uma função cujo valor mínimo seja 0:

Em seguida, divida 1g por seu valor máximo, para fornecer uma função no intervalo [0, 1], e

multiplique o resultado por L - 1 para fornecer uma função com valores no intervalo entre [0, L - 1]

Tenha em mente que fmin é uma escalar e f é uma imagem.

Problema 3.3

a

Problema 3.5

(a) O número de pixels que têm valores de nível de intensidade diferentes diminuiria, fazendo que

decresça a quantidade de componentes no histograma. Como o número de pixels não aumenta, a geral,

isso faria que a altura de alguns picos restantes do histograma aumentasse. Normalmente, uma menor

variabilidade nos valores do nível de intensidade irá diminuir o contraste.

11

Problema 3.6

Tudo que a equalização de histograma faz é remapear os componentes do histograma na escala de

intensidade. A obtenção de um histograma (plano) uniforme, em geral, requer que as intensidades de

pixel realmente sejam redistribuídas de forma que hajam grupos L de n/L pixels com a mesma

intensidade, onde L é o número de níveis de intensidade discreta permitidos e n = MN é o número total

de pixels na imagem de entrada. O método de equalização do histograma não tem provisões para esse

tipo de processo (artificial) de redistribuição de intensidade.

Problema 3.9

Estamos interessados em apenas um exemplo a fim de satisfazer o enunciado do problema. Considere

a função densidade de probabilidade na figura 3.9(a). Um gráfico da transformada T (r) na Equação 3.

3-4, utilizando essa função de densidade particular é mostrada na Figura 3.9(b). Devido a Pr (R) ser

uma função de densidade de probabilidade,sabemos a partir da discussão na Seção 3.3.1 que a

transformada T (r) satisfaz as condições (a) e (b) afirmadas naquela seção. No entanto, observamos da

Figura P3.9 (b) que a transformada inversa de r de volta a s não é um valor único, pois há um número

infinito de possíveis mapeamentos de s = (L - 1) / 2 de volta a r. É importante notar que a razão da

função de transformação inversa não retornar nem um único valor é a lacuna em pr (r) no intervalo [L /

4,3 L / 4].

12

Problema 3.10

(b) Se nenhum dos níveis de intensidade kr, k = 1,2,. . . , L - 1, é 0, então T (kr) será estritamente

monotônico. Isso implica em um mapeamento um para um nos dois sentidos, significando que as

transformadas direta e inversa serão sempre de valor único.

Problema 3.12

O valor do componente histograma correspondente ao nível de intensidade k-ésimo em uma

vizinhança é

para k = 1,2,. . . , K - 1, onde nk é o número de pixels que tem o mesmo nível de intensidade rk, n é o

número total de pixels de vizinhança, e K é o número total de níveis de intensidade possíveis. Suponha

que a vizinhança é movida um pixel para a direita (estamos assumindo vizinhanças retangulares). Isso

exclui a coluna mais à esquerda e introduz uma nova coluna à direita. O histograma atualizado torna-

se então

para k = 0,1,. . . , K - 1, onde NLK é o número de ocorrências de nível kr na coluna esquerda e NRK é a

quantidade similar na coluna da direita. A equação anterior pode ser escrita também como

para k = 0,1,. . . , K - 1. O mesmo conceito se aplica a outros modos de movimento de vizinhança:

13

para k = 0,1,. . . , K - 1, onde ka é o número de pixels com valor rk na área de vizinhança que foi

excluída pelo movimento, e bk é o número correspondente introduzido pelo movimento.

Problema 3.13

O objetivo deste simples problema é fazer o aluno pensar sobre os histogramas e chegar à conclusão

de que eles não carregam nenhuma informação sobre as propriedades espaciais das imagens. Assim, a

única vez que o histograma de imagens formado pelas operações indicadas no enunciado do problema

pode ser determinado em termos de histogramas originais é quando um (ambas) as imagens

é (são) constante(s). Em (d) temos o requisito adicional de que nenhum dos pixels de g (x, y) pode ser

0. Suponha, por conveniência, que os histogramas não estão normalizados, de modo que, por exemplo,

fh (rK) é o número de pixels em f (x, y) com intensidade de nível rk. Considere também que todos os

pixels em g (x, y) têm um valor constante c. Assume-se que os pixels das duas imagens são positivos.

Finalmente, façamos que uk indique os níveis de intesidade dos pixels das imagens formadas por

qualquer das operações aritméticas dadas no enunciado do problema. De acordo com o conjunto de

condições precedentes, os histogramas são determinados como segue:

(a) Obtemos o histograma hsum(uk) da soma fazendo uk = rk + c, e também hsum(uk) = hf (RK) para todos

os k. Em outras palavras, os valores (altura) dos componentes de hsum são os mesmos que os

componentes de hf, mas suas posições sobre o eixo de intensidade são deslocadas para a direita por um

montante c.

Problema 3.15

(a) Considere primeiro uma máscara 3 × 3. Como todos os coeficientes são 1 (estamos ignorando o

fator de escala 1/9), o efeito líquido da operação do filtro passa-baixa é a de adicionar todos os valores

de intensidade dos pixels sob a máscara. Inicialmente, leva oito adições para produzir a resposta da

máscara. No entanto, quando a máscara move de local um pixel para a direita, toma apenas uma nova

coluna. A nova resposta pode ser calculada como

14

Rnovo = Rvelho - C1 + C3

onde C1 é a soma dos pixels sob a primeira coluna da máscara antes de ter sido movida, e C3 é a soma

similar da coluna onde ficou após ter sido movida. Essa é a equação básica da caixa de filtro ou do

movimento médio. Para uma máscara 3 x 3 são necessárias duas adições para obter C3 (C1 já foi

calculado). A isso acrescentamos uma adição e uma subtração para obter Rnovo. Assim, é necessário

um total de quatro operações aritméticas para atualizar a resposta após o movimento. Esse é um

procedimento recursivo para mover da esquerda para a direita ao longo de uma linha da

imagem. Quando alcançamos o fim de uma linha, descemos um pixel (a natureza do cálculo é a

mesma) e continuamos a varredura na direção oposta.

Para uma máscara de tamanho n × n, (n - 1) são necessárias adições para obter C3, além de uma

simples adição e subtração para obter Rnovo, que dá um total de (N + 1) operações aritméticas após cada

movimento. A aplicação de força bruta exigiria n2 - 1 acréscimos após cada movimento.

Problema 3.16

(a) A chave para resolver este problema é reconhecer (1) que o resultado da convolução em qualquer

local (x, y) consiste em centrar a máscara naquele ponto e, em seguida, formar a soma dos produtos do

coeficiente da máscara com os pixels correspondentes na imagem; e (2) que a convolução da máscara

com a imagem inteira resulta em cada pixel da imagem ser acessado apenas uma vez por cada

elemento da máscara (ou seja, cada pixel é multiplicado uma vez por cada coeficiente da máscara).

Como a soma dos coeficientes da máscara é zero, significa que a soma dos produtos dos coeficientes

com o mesmo pixel também é zero. Executar este argumento para cada pixel da imagem leva à

conclusão de que a soma dos elementos da matriz de convolução também é zero.

15

Problema 3.18

(a) Há n² pontos em uma máscara de filtro mediana n × n. Como n é ímpar, o valor da mediana, ζ, é tal

que existem (n² - 1) / 2 pontos com valores inferiores ou iguais a ζ e o mesmo número com valores

iguais ou superiores a ζ. No entanto, devido à área A (número de pontos) no cluster ser menos da

metade de n², e A e n serem números inteiros, segue que A será sempre menor ou igual a (N² - 1) / 2.

Assim, mesmo em casos extremos, quando todos os pontos do cluster estão encerrados dentro da

máscara de filtro, não há pontos suficientes no cluster para qualquer um deles ser igual ao valor da

mediana (lembre-se, estamos assumindo que todos os pontos do cluster são mais claros ou mais

escuros do que os pontos de fundo). Portanto, se o ponto central na máscara for um ponto de cluster,

este será ajustado ao valor da mediana, que é uma sombra de fundo, e assim será ‘eliminado’ do

cluster. Naturalmente, essa conclusão se aplica ao caso menos extremo, quando o número de pontos

do cluster encerrado dentro da máscara for menor que o tamanho máximo do cluster.

Problema 3.19

(a) Classifique numericamente os valores de n². A mediana é

ζ = [(2n + 1) / 2] o maior valor .

(b) Uma vez que os valores tenham sido classificados, simplesmente excluímos os da extremidade

final da vizinhança e os inserimos na borda inicial, nos locais apropriados da matriz ordenada.

16

Problema 3.21

Da Figura 3.33 sabemos que as faixas verticais têm 5 pixels de largura, 100 pixels de altura, e a sua

separação é de 20 pixels. O fenômeno em questão está relacionado com a separação horizontal entre as

faixas; para que possamos simplificar o problema, considerando uma única linha de varredura das

faixas da imagem. A chave para responder a esta questão reside no fato de a distância (em pixels) entre

o início de um faixa e o início da próxima (por exemplo, à sua direita) ser de 25 pixels.

Considere a linha de varredura mostrada na Figura 3.21. Também foi mostrada uma seção transversal

de uma máscara de 25 × 25. A resposta da máscara é a média dos pixels que ela abrange. Observamos

que quando a máscara move um pixel para a direita, perde um valor da faixa vertical à esquerda, mas

obtém um valor idêntico à direita, então a reação não se altera. Na verdade, o número de pixels

pertencentes às faixas verticais e contidas dentro da máscara não alteram, independentemente de onde

a máscara estiver localizada (contanto que esteja dentro das faixas, e não perto das bordas do conjunto

de faixas).

O fato de o número de pixels sob a faixa não alterar se deve à separação peculiar entre elas e a

extensão das linhas em relação à extensão de 25 pixels da máscara. Esta resposta constante é a razão

de não serem vistos espaços em branco na imagem mostrada no enunciado do problema. Note que esta

resposta constante não acontece com máscaras de 23 × 23 ou 45 × 45 porque elas não estão

‘sincronizadas’ com a extensão das faixas e sua separação.

Problema 3.24

O operador Laplaciano é definido como

para as coordenadas não rotacionais, e como

17

para coordenadas rotacionais. É dado que

e

onde θ é o ângulo de rotação. Queremos mostrar que os lados direito das duas primeiras equações são

iguais. Começamos com

Calculando a derivada parcial da expressão novamente com relação a x’, resulta

Em seguida, calculamos

Calculando a derivada dessa expressão novamente com relação a y’, resulta

Adicionando as duas expressões para a segunda derivada, resulta

o que prova que o operador Laplaciano é independente da rotação.

18

Problema 3.25

A máscara Laplaciana com -4 no centro realiza uma operação proporcional para diferenciação nas

direções horizontal e vertical. Consideremos por um momento uma máscara ‘Laplaciana’ 3 × 3 com -2

no centro e 1s acima e abaixo do centro. Todos os outros elementos são 0. Essa máscara irá realizar a

diferenciação em apenas uma direção, e irá ignorar as transições de intensidade na direção ortogonal.

Uma imagem processada com tal máscara exibirá nitidez em uma só direção. Uma máscara Laplaciana

com -4 no centro e 1s nas direções vertical e horizontal, obviamente, produzirá uma imagem com

nitidez em ambas as direções e, em geral, aparecerão mais nítidas do que com a máscara anterior. Da

mesma forma, a máscara com -8 no centro e 1s nas direções horizontal, vertical e diagonal irá detectar

as mesmas variações de intensidade que a máscara com -4 no centro, mas, em acréscimo, também será

capaz de detectar variações ao longo das diagonais, geralmente produzindo resultados mais nítidos.

Problema 3.28

Considere a seguinte equação:

onde f (x, y) representa a média de f (x, y) em uma vizinhança predefinida centralizada em (x, y) e

incluindo o pixel central em suas quatro vizinhanças imediatas. Tratando as constantes da última linha

da equação acima como fatores de proporcionalidade, podemos escrever

19

O lado direito dessa equação é reconhecido nos recém-mencionados fatores de proporcionalidade que

devem ser da mesma forma que a definição da máscara desfocada dada nas equações 3. 6 - 8 e 3. 6 -

9. Assim, foi demonstrado que a subtração da Laplaciano de uma imagem é proporcional à máscara

desfocada.

Problema 3.33

A espessura da fronteira aumentará à medida que o tamanho da filtragem da vizinhança aumentar.

Escoraremos essa conclusão com um exemplo. Considere uma linha reta preta de um pixel de

espessura correndo verticalmente através de uma imagem branca. Se for usada uma vizinhança 3 × 3,

quaisquer vizinhanças cujos centros forem mais que dois pixels de distância da linha apresentarão

diferenças de valores zero e o pixel central será designado como pixel de região. Deixando o pixel

central na mesma localização, se aumentarmos o tamanho da vizinhança para, digamos, 5 × 5, a linha

será englobada e nem todas as diferenças serão zero, de modo que o pixel do centro será indicado

como ponto de fronteira, aumentando a espessura do contorno. Como aumenta o tamanho da

vizinhança, teriamos que estar cada vez mais longe da linha antes que o ponto central deixasse de ser

chamado de ponto de fronteira. Isto é, a espessura do limite detectado aumentaria à medida que o

tamanho da vizinhança aumentasse.

Problema 3.34

(a) Se a intensidade do pixel central de uma região de 3 × 3 for maior do que a intensidade de todos os

seus vizinhos, então reduza-a. Se a intensidade for menor do que a intensidade de todos os seus

vizinhos, então, aumente-a. De outra forma, não faça nada.

(b) Regras

20

Nota: Na regra 1, todas as diferenças positivas significam que a intensidade do pulso do ruído (Z5) é

menor que o de todos os 4-vizinhos. Então, desejamos tornar a saída z’5 mais positiva para que,

quando for adicionado à z5, aproxime o valor do pixel central aos valores de seus vizinhos. O inverso

será verdadeiro quando todas as diferenças forem negativas. Uma mistura de diferenças positivas e

negativas não demandam ação porque o pixel central não é um ponto claro. Neste caso, a correção

deve ser zero (lembre-se de que zero também não é um conjunto coerente).

21

Capítulo 4


Problema 4.2

(a) Para provar periodicidade infinita em ambas as direções com o período 1/ΔT, temos que mostrar

que para da Equação 4.3-5,

onde a terceira linha resulta do fato de que k e n são inteiros e os limites da soma são simétricos a

partir da origem. A última etapa vem da Equação 4.3-5.

(b) Novamente, precisamos mostrar que para da

Equação 4.4-2,

22

onde a terceira linha resulta do fato de que porque k e n são inteiros (veja a

fórmula de Euler), e a última linha resulta da Equação 4.4-2.

Problema 4.3

Da definição da transformada de Fourier 1-D na Equação 4.2-16,

Da propriedade de translação na Tabela 4.3, sabemos que

e sabemos a partir do enunciado do problemaque a transformada de Fourier de uma constante [f (t) =

1] é um impulso. Assim,

Portanto, vemos que a integral mais à esquerda da última linha acima é a transformada de Fourier de

(1) ej2πnt

, que é δ (μ - n), e similarmente, a segunda integral é a transformada de (1) e-j2πnt

, ou δ (μ +

n). A combinação de todos os resultados produz

como desejado.

23

Problema 4.4

(a) O período é tal que 2πnt = 2π, ou t = 1 / n.

(b) A frequência é 1 dividido pelo período, ou n. A transformada contínua de Fourier de determinada

onda senoidal parece como na Figura 4.4 (a) (ver problema 4.3), e a transformada dos dados da

amostra (mostrando alguns períodos) tem a forma geral ilustrada na Figura 4.4 (b) (a caixa tracejada é

um filtro ideal que permite a reconstrução se a função seno tiver sido testada com o teorema de

amostragem a ser satisfeito).

(c) A taxa de amostragem de Nyquist é exatamente o dobro da frequência mais alta, ou 2n. Isso é,

(1/ΔT) = 2n, ou Dt = 1/2n. A colheita de amostras em t = ± Dt, ± 2ΔT... produziria a função testada sen

(2πnΔT), cujos valores são todoszero porque Dt = 1/2N e n é um inteiro. Em termos da Figura 4.4 (b),

vemos que quando ΔT = 1/2n todos os impulsos positivos e negativos coincidem, eliminando um ao

outro e dando um resultado zero para os dados amostrados.

Problema 4.5

A partir de Equação 4.2-20,

24

Sua transformada de Fourier dessa expressão é

O termo dentro dos colchetes é a transformada de Fourier de g (t- τ). Mas, sabemos pela propriedade

de translação (Tabela 4.3) que

Assim,

Isso prova que a multiplicação no domínio da frequência é igual à convolução no domínio espacial. A

prova de que a multiplicação no domínio espacial é igual à convolução no domínio espacial é obtida

de forma semelhante.

Problema 4.8

(b) Podemos resolver este problema como o acima, por substituição direta e usando

ortogonalidade. Substituindo a Equação 4.4-7 na 4.4-6 produz-se

25

onde a última etapa decorre da condição de ortogonalidade dada no enunciado do problema.

Substituindo a Equação 4.4-6 na 4.6-7, usando o mesmo procedimento, resulta em uma identidade

semelhante para f (x).

Problema 4.10

Com referência ao enunciado do teorema da convolução dado nas Equações 4.2-21 e 4.2-22,

precisamos mostrar que

e que

Da Equação 4.4-10 e da definição da DFT na Equação 4.4-6,

Prova-se de forma similar a outra metade do teorema da convolução discreta.

26

Problema 4.11

Com referência à Equação 4.2-20,

Problema 4.14

Da Equação 4.5-7,

Lembre-se que neste capítulo usamos (t, z) e (μ, ν) para variáveis contínuas, e (x, y) e (u, v) para

variáveis discretas.

Da Equação 2.6-2, a operação da transformada de Fourier é linear se

Substituindo na definição da transformada de Fourier produz-se

onde segue a segunda etapa da propriedade distributiva da integral.

Da mesma forma, para o caso discreto,

27

A linearidade da transformada inversa é demonstrada exatamente da mesma maneira.

Problema 4.16

(a) Da Equação. 4.5-15,

Problema 4.20

As seguintes, considerações são provas de algumas das propriedades na Tabela 4.1. As provas de

outras propriedades são dadas no Capítulo 4. Lembre-se de que quando nos referimos a uma função

como imaginária, sua parte real é zero. Usamos o termo complexo para indicar uma função cujas

partes real e imaginária não é zero. Testamos apenas a parte avançada dos pares da transformada de

Fourier. Foram usadas técnicas semelhantes para testar a parte inversa.

(a) Propriedade 2: Se f (x, y) for imaginário, f (x, y) ⇔ F* (-u,-v) = -F (u, v). Prova: Como f (x, y) é

imaginário, podemos expressá-lo como jg (x, y), onde g (x, y) é uma função real. Em seguida, a prova

é a seguinte:

28

(b) Propriedade 4: Se f (x, y) for imaginário, então R (u, v) é ímpar e I (u, v) é par.

Prova: F é complexo, por isso pode ser expresso como

Então, -F (u, v) = -R (u, v)- jI (u, v) e F* (-u,-v) R (-u,-v) jI (-u, -v). Mas, devido a f (x, y) ser

imaginário F* (-u, -v) = F (u, v) (ver Propriedade 2). Segue das duas outras equações anteriores que R

(u, v) =-R (-u, -v) (ou seja, R é impar) e I (u, v) = I (-u, -v) (I é par).

(d) Propriedade 7: Quando f (x, y) for complexo, f* (x, y) ⇔ F* (-u, -v). Prova:

29

(g) Propriedade 11: Se f (x, y) for imaginário e ímpar, então F (u, v) é real e ímpar, e vice-

versa. Prova: Se f (x, y) for imaginário, sabemos que a parte real de F (u, v) é ímpar e sua parte

imaginária é par. Se puder mostrar que a parte imaginária é zero, então teremos a prova para essa

propriedade. Como dito acima,

onde segue a última etapa da Equação 4.6-13.

Problema 4.21

Lembre-se de que a razão do alargamento foi estabelecer um buffer entre os períodos que estão

implícitos no DFT. Imagine a imagem à esquerda sendo duplicada muitas vezes infinitamente para

cobrir o plano xy. O resultado seria um tabuleiro de xadrez, com cada quadrado que está no tabuleiro

sendo a imagem (e as extensões pretas). Agora, imagine fazer a mesma coisa para a imagem à

direita. Os resultados seriam idênticos. Assim, qualquer forma de preenchimento realiza a

mesma separação entre as imagens, da forma que é desejado.

Problema 4.22

A menos que todas as fronteiras de uma imagem sejam negras, o preenchimento da imagem com zeros

introduz descontinuidades significativas em uma ou mais bordas da imagem. Podem ser bordas fortes

horizontais e verticais. Estas transições nítidas no domínio espacial introduzem componentes de alta

frequência ao longo dos eixos vertical e horizontal do espectro.

30

Problema 4.23

(a) Calcula-se as médias das duas imagens como segue:

e

onde a segunda etapa resulta do fato de que a imagem está preenchida com zeros. Assim, a proporção

dos valores médios é

Assim, notamos que a proporção aumenta como função de PQ, indicando que o valor médio da

imagem preenchida diminui como função de PQ. Isso já era esperado; o preenchimento de uma

imagem com zeros diminui seu valor médio.

Problema 4.25

(a) Da Equação 4.4-10 e a definição do 1-D DFT,

31

mas

onde segue a última etapa da Equação 4.6-4. Substituindo esse resultado na equação anterior, resulta

A outra parte do teorema da convolução ocorre de forma semelhante.

(c) A correlação é feita da mesma maneira, mas devido à diferença de sinal no argumento h o resultado

será um conjugado:

(d) Começaremos com uma variável:

A integração por partes tem a seguinte forma geral,

Façamos e . Então, ou

e

32

Então, segue que

Porque, por hipótese, f (± ∞) = 0 (veja a Tabela 4.3). Depois, considere a segunda derivada. Defina g

(z) = DF (z) / dz. Então,

onde G (ν) é a transformada de Fourier de g (z). Mas g (z) = df (z) / dz, então G (ν) = (j2πν) F (ν) e

Continuando dessa maneira, resultará na expressão

Se formos agora para 2-D e extrairmos a derivada de uma única variável, obteremos o mesmo

resultado que na expressão anterior, mas teremos que usar derivadas parciais para indicar para qual

variável aplicar a diferenciação e, em vez de F (μ), teremos F (μ, ν). Assim,

33

Defina , então

Mas G (μ, ν) é a transformada de g (t, z) = ∂n f (t, z) / ∂tn, que sabemos ser igual a (j2πμ)n F (μ,

ν). Portanto, estabelecemos que

Como a transformada de Fourier é única, sabemos que a transformada inversa do lado direito dessa

equação daria o esquerdo, então a equação constitui uma transformada de Fourier par (tenha em mente

que estamos lidando com variáveis contínuas).

Problema 4.26

(b) Como mostra a derivada anterior, o filtro laplaciano aplica-se a variáveis contínuas. Podemos gerar

um filtro para uso com a DFT apenas por amostragem desta função:

H (u, v) =- 4π² (u² + v²)

para u = 0,1,2,. . . , M - 1 e v = 0,1,2,. . . , N - 1. Ao trabalhar com transformadas centradas, a função de

filtro laplaciano no domínio da frequência é expressa como

H (u, v) = - 4π² ([u - M / 2]² + [v - N / 2]²).

34

Em resumo, temos o seguinte par de transformada de Fourier relacionada com de a Laplace nos

domínios espacial e de frequência:

∇ ² f (x, y) ⇔ - 4π² ([u - M / 2]² + [v - N / 2]²) F(u, v)

onde subentende-se que o filtro é uma versão da amostra de uma função contínua.

(c) O filtro laplaciano é isotrópico, assim sua simetria é muito mais próxima de uma máscara

laplaciana se tiver termos diagonais adicionais, que requer um -8 no centro para que a sua resposta seja

zero em áreas de intensidade constante.

Problema 4.27

(a) A média espacial (excluindo o termo centro) é

Da Propriedade 3 na Tabela 4.3,

onde

é a função de transferência do filtro no domínio da frequência.

(b) Para comprovar que este é um filtro passa-baixa, ajuda se a equação anterior for expressa na forma

das funções centrada familiares:

35

H (u, v) = 1 / 2 [cos (2π [u - M / 2]) / M) + cos (2π [v N / 2] / N)].

Para maior comodidade considere uma variável. Como u varia de 0 a M - 1, o valor de cos (2π [u - M /

2] / M) começa a -1, o pico é em 1 quando u = M / 2 (centro do filtro) e depois diminui para -1

novamente quando u = M. Assim, vemos que a amplitude do filtro diminui como uma função da

distância da origem do filtro centrado, que é a característica de um filtro passa-baixa. Um argumento

semelhante pode ser facilmente conduzido ao considerar as variáveis simultaneamente.

Problema 4.30

A resposta é não. A transformada de Fourier é um processo linear, enquanto o quadrado e as raízes

quadradas envolvidos no cálculo do gradiente são operações não lineares. A transformada de Fourier

pode ser usada para calcular as derivadas de diferenças (como no problema 4.28), mas os quadrados,

raiz quadrada, ou valores absolutos devem ser calculados diretamente no domínio espacial.

Problema 4.31

Iremos mostrar que

A explicação ficará mais clara se iniciarmos com uma variável. Mostraremos que, se

então,

36

Podemos expressar a integral na equação anterior como

Usando a identidade

na integral anterior, resulta

Em seguida, fazemos a mudança de variáveis r = μ - j2πσ2t. Em seguida, dr = dμ, e a integral anterior

se torna

Por fim, multiplicamos e dividimos o lado direito dessa equação por e obtemos

A expressão dentro dos colchetes é reconhecida como a função densidade de probabilidade gaussiana

cujo valor de - ∞ a ∞ é 1. Por isso,

37

Tomando como base os resultados anteriores, agora estamos prontos para demonstrar que

Substituindo diretamente na definição da transformada inversa de Fourier, temos que:

Reconhecemos a integral entre colchetes da discussão anterior que era igual à .

Então, a integral anterior se torna

Agora reconhecemos que a integral restante é igual à , da qual obtemos o

resultado final:

Problema 4.35

38

Com referência à Equação 4.9 - 1, todos os filtros passa-alto discutidos na Seção 4.9 podem ser

expressos a 1 menos a função de transferência do filtro passa-baixo (que sabemos que não tem um

impulso na origem). A transformada inversa de Fourier de 1 dá um impulso na origem nos filtros

espaciais passa-alto.

Problema 4.37

(a) Uma aplicação do filtro resulta:

Da mesma forma, K aplicações do filtro dariam

A DFT inversa do GK (u, v) daria a imagem resultante de K que passa pelo filtro gaussiano. Se K for

bastante largo, a LPF gaussiana se tornará um filtro notch de passagem, passando apenas F

(0,0). Sabemos que esse termo é igual ao valor médio da imagem. Assim, existe um valor de K após o

qual o resultado de repetidos filtros passa-baixo produzirá simplesmente uma imagem constante. O

valor de todos os pixels dessa imagem vai ser igual ao valor médio da imagem original.

Note que a resposta se aplica mesmo quando K se aproxima do infinito. Neste caso, o filtro irá se

aproximar de um impulso na origem, e isso ainda nos dá F (0,0) como resultado da filtragem.

Problema 4.41

Como M = 2n, podemos escrever as equações 4.11-16 e 4.11-17, como

39

e

A prova por indução começa por mostrar que ambas as equações se mantêm para n = 1:

e

Sabemos que esses resultados estão corretos a partir da discussão na Seção 4.11.3. Em seguida, vamos

supor que as equações se mantêm para n. Então, somos obrigados a provar que elas também são

verdadeiras para n + 1. Da Equação 4.11-14,

Substituindo mn de cima,

Portanto, a Equação 4.11-16 é válida para todos os n.

Da equação 4.11-17,

Substituindo a expressão acima por an, resulta

40

que conclui a prova.

41

Capítulo 5


Problema 5.1

As soluções são mostradas na Figura 5.1, da esquerda para a direita.

Problema 5.3


Problema 5.5


42

Problema 5.7

As soluções são mostradas na figura 5.7, da esquerda para a direita.

Problema 5.9


43

Problema 5.10

(a) A explicação para este problema é que a média geométrica é zero toda vez que qualquer pixel for

zero. Trace um perfil de uma borda ideal, com alguns pontos valendo 0 e outros valendo 1. A média

geométrica resultará apenas valores de 0 e 1, enquanto que a média aritmética dará valores

intermediários (desfoque).

Problema 5.12

Um filtro passa-banda é obtido subtraindo-se o correspondente rejeita banda a partir de 1:

Então:

(a) Filtro ideal passa-banda:

(b) Filtro butterworth passa-banda:

(c) Filtro passa-banda gaussiano:

44

Problema 5.14

Procede-se da seguinte forma:

Usando a definição exponencial da função seno

resulta

Essas são as transformadas de Fourier das funções

e

respectivamente. A transformada de Fourier de 1 dá um impulso na origem, e as exponenciais

deslocam a origem do impulso, como discutido na Seção 4.6.3 e no Quadro 4.3. Assim,

45

Problema 5.16

Da Equação 5.5-13,

Dado que f (x, y) = δ (x - a), então f (α, β) = δ (α - a). A seguir, usando a reação do impulso fornecida

no enunciado do problema,

onde consideramos o fato de ser a integral do impulso diferente de zero somente quando α = a. Em

seguida, observamos que

que está sob a forma de uma constante vezes uma densidade gaussiana com variância 1/2 ou

desvio padrão . Em outras palavras,

46

A integral de menos infinito a mais do infinito da quantidade dentro dos parênteses é 1, assim

que é uma versão desfocada da imagem original.

Problema 5.18

Seguindo o procedimento da Seção 5.6.3,

onde

e

Esses são integrais de seno e cosseno de Fresnel. Podem ser encontrados, por exemplo, no Manual de

funções matemáticas, de Abramowitz, ou em outras referências similares.

47

Problema 5.20

Meça o valor médio do fundo. Defina todos os pixels da imagem, exceto o do retículo, para este valor

de intensidade. Indique a transformada de Fourier desta imagem por G (u, v). Devido às características

do retículo serem fornecidas com um alto grau de precisão, pode-se construir uma imagem de fundo

(do mesmo tamanho), utilizando os níveis de intensidade de fundo determinados

anteriormente. Construiremos, então, um modelo de retículo no local correto (determinado a partir da

imagem dada) usando as dimensões fornecidas e o nível de intensidade do retículo. A transformada de

Fourier desta nova imagem é indicada por F (u, v). A proporção G (u, v) / F (u, v) é uma estimativa da

função de desfoque H (u, v). No caso provável de desaparecimento de valores em F (u, v), podemos

construir um filtro limitado radialmente usando o método discutido com relação à Figura 5.27. Por

conhecermos F (u, v) e G (u, v), e uma estimativa de H (u, v), a estimativa da função de desfoque pode

ser refinada, substituindo G e H na Equação 5.8-3 e ajustando K para chegar o mais próximo possível

de um bom resultado para F (u, v) (o resultado pode ser avaliado visualmente aplicando a

transformada inversa de Fourier). Se desejado, o filtro resultante em cada caso poderá ser usado para

tirar o desfoque da parte principal da imagem.

Problema 5.22

Esta é uma tomada simples do problema. Seu objetivo é ganhar familiaridade com os diversos termos

do filtro de Wiener. Da Equação 5.8-3,

Onde

Então,

48

Problema 5.25

(a) Dado que

Do Problema 5.24 (lembre-se de que se considera que a imagem e o ruído não têm correlação),

Forçando na equação resulta

Problema 5.27

A ideia básica por trás deste problema é usar a câmera e moedas representativas para modelar o

processo de degradação e, em seguida, utilizar os resultados em uma operação de filtro inverso. As

etapas principais são as seguintes:

1. Selecione moedas o mais próximo possível em tamanho e conteúdo de moedas gastas. Selecione um

fundo que se aproxime da textura e do brilho das fotos das moedas gastas.

2. Configure a câmera para fotografia tipo museu em uma geometria tão próxima quanto possível para

fornecer imagens que lembrem as de moedas gastas (o que inclui prestar atenção à

49

iluminação). Obtenha algumas fotos de teste. Para simplificar a experimentação, pegue uma câmera de

TV capaz de fornecer imagens que se assemelhem às fotos do ensaio. Isso pode ser feito conectando a

câmera a um sistema de processamento de imagem e gerando imagens digitais, que serão utilizadas no

experimento.

3. Obtenha conjuntos de imagens de cada moeda com configurações diferentes da lente. As imagens

resultantes devem se aproximar dos aspectos de ângulo, tamanho (em relação à área ocupada pelo

fundo), e desfoque das fotos das moedas gastas.

4. A configuração das lentes para cada imagem em (3) é um modelo do processo de desfoque para

cada imagem correspondente a uma moeda gasta. Para cada configuração, retire a moeda e o fundo e

substitua-os por um ponto pequeno, brilhante em um fundo uniforme, ou outro mecanismo para

aproximar um impulso de luz. Digitalize o impulso. A transformada de Fourier será a função de

transferência do processo de desfoque.

5. Digitalize cada foto (desfocada) da moeda gasta, e obtenha a transformada de Fourier. Neste ponto,

temos H (u, v) e G (u, v) para cada moeda.

6. Obtenha uma aproximação para F (u, v), usando um filtro Wiener. A Equação 5.8-3 é

particularmente atraente porque oferece um grau adicional de liberdade (K) ao experimento.

7. A transformada inversa de Fourier de cada aproximação F(u, v) fornece a imagem restaurada da

moeda. Em geral, são necessários vários passos experimentais desses procedimentos básicos com

diversas configurações e parâmetros diferentes para obter resultados aceitáveis em um problema como

este.

Problema 5.28

(b) A solução é mostrada na figura seguinte. As soluções são mostradas na Figura 5.28. Em cada

figura o eixo horizontal é ρ e o eixo vertical é θ, com θ = 0º na parte mais baixa e subindo até 180º. Os

lóbulos de gordura ocorrem em 45º, e o único ponto de intersecção é em 135º. A intensidade nesse

ponto é o dobro da intensidade em todos os outros pontos.

50

Problema 5.30

(a) Da Equação 5.11-3,

={ 1 se p = 0

= { 0 de outra maneira

onde a terceira etapa resulta do fato de δ (x, y) ser igual a zero se x e / ou y não forem zero.

Problema 5.31

(a) Da Seção 2.6, sabe-se que um operador, O, é linear se = . A

partir da definição da transformada de Radon na Equação 5.11-3,

mostrando assim que a transformada de Radon é uma operação linear.

51

(c) Do Capítulo 4 (Problema 4.11), sabemos que a convolução de duas funções f e h é definida como

Queremos mostrar que , onde ℜ representa a transformada de Radon.

Fazemos isso substituindo a expressão de convolução na Equação 5.11-3. Isto é,

onde foram utilizados os subscritos nas integrais distingui-las de suas variáveis. Todas as integrais são

compreendidas entre -∞ e ∞. Trabalhando com as integrais dentro dos colchetes com

e , temos

Reconhecemos a segunda integral como a transformada de Radon de h, mas em vez de estar com ρ e θ,

é uma função de ρ - αcosθ - β sen θ e θ. A notação na última linha é usada para indicar “a

transformada de Radon de h como função de ρ - αcosθ - β sen θ e θ”. Então,

onde ρ’ = αcosθ + β sen θ. Então, com base nas propriedades do impulso, podemos escrever

52

Então,

onde a quarta etapa resulta da definição da transformada de Radon e a quinta da definição da

convolução. Isso completa a prova.

Problema 5.33

O argumento da função s na Equação 5.11-24 pode ser escrito como:

Da Figura 5.47,

Então, substituindo na expressão anterior,

que está de acordo com a Equação 5.11-25.

53

Capítulo 6


Problema 6.2

Se determinada cor for indicada por c, e suas coordenadas forem indicadas por . A distância

entre c e é

Da mesma forma a distância entre e

A porcentagem de em C é

A porcentagem de é simplesmente = 100 - . Na equação precedente vemos, por exemplo,

que quando c = , então d (c, ) = 0 e resulta que = 100% e = 0%. Similarmente, quando d

(c, ) = d , resulta que = 0% e = 100%. Os valores desses intervalos são facilmente

verificados como resultado dessas relações simples.

54

Problema 6.4

Use filtros de cor bem sintonizados com os comprimentos de onda das cores de três objetos. Com um

filtro específico no local, apenas os objetos cuja cor corresponde ao comprimento de onda produzirão

um efeito significativo na câmera monocromática. Pode-se usar uma roda de filtro motorizada a partir

de um computador. Se uma das cores for branca, então a resposta dos três filtros será

aproximadamente igual e alta. Se uma das cores for a preta, a resposta dos três filtros será

aproximadamente igual e baixa.

Problema 6.6

Para a imagem dada, o requisito de máxima intensidade e saturação significa que os valores do

componente RGB são 0 ou 1. Podemos criar a Tabela 6.6 com 0 e 255, que representa preto e branco,

respectivamente. Assim, obtemos a amostra monocromática exibida na Figura 6.6.

Problema 6.8

(a) Todos os valores de pixel da imagem vermelha são 255. Na imagem verde, a primeira coluna é de

0's, a segunda 1's e assim por diante, até a última coluna, que é toda composta de 255’s. Na imagem

Azul, a primeira linha é toda de 255's, a segunda de 254’s, e assim sucessivamente, até a última linha,

que é composta de todos os 0’s.

55

Problema 6.10

A Equação 6.2-1 revela que cada componente da imagem CMY é uma função de um único

componente da imagem RGB correspondente -C é uma função de R, M de G e Y de B. Para maior

clareza, vamos usar um número primo para designar os componentes CMY. Da Equação 6.5-6,

sabemos que

para i = 1, 2, 3 (para os componentes R, G e B). E da Equação 6.2-1 sabemos que os componentes

CMY correspondentes a e (que estamos indicando como números primos) são

e

Então,

e

resultando

Problema 6.12

Usando as equações de 6.2-2 a 6.2-4, obtemos os resultados mostrados na Tabela 6.12. Observe que,

de acordo com a Equação 6.2-2, a matiz é indefinida, quando R = G = B, desde que θ = (0 /

56

0). Além disso, a saturação é indefinida quando R = G = B = 0, desde que a Equação 6.2-3 produza S =

1 – 3 min (0) / (3 × 0) = 1 - (0 / 0). Assim, temos a amostra monocromática exibida na Figura 6.12.

Problema 6.14

Há dois aspectos importantes neste problema. Um deles é aproximá-lo ao espaço HSI e o outro é usar

coordenadas polares para criar uma imagem de matiz, cujos valores cresçam em função do ângulo. O

centro da imagem será o meio de qualquer área da imagem que for usada. Assim, por exemplo, os

valores da imagem de matiz, ao longo de um raio, quando o ângulo for 0º seriam todos 0’s. Em

seguida, o ângulo é incrementado por, digamos, um grau, e todos os valores ao longo desse raio seriam

1, e assim por diante. Os valores de saturação da imagem diminuem linearmente em todas as direções

radiais a partir da origem. A intensidade da imagem é apenas uma constante especificada. Com estes

princípios básicos em mente não é difícil escrever um programa que gere o resultado desejado.

57

Problema 6.16

(a) Dado que as cores na Figura 6.16 (a) são espectros de cores primárias. Dado também que as

imagens em nível de cinza no enunciado do problema são imagens de 8 bits. Esta última condição

significa que o matiz (ângulo) só pode ser dividido em um número máximo de 256 valores. Como os

valores de matiz são representados no intervalo de 0º e 360º, significa que, para uma imagem de 8 bits

os incrementos entre valores contíguos de matiz estão agora entre 360/255. Outra visão disso é que a

escala inteira da matiz [0, 360] está comprimida no intervalo entre [0, 255]. Assim, por exemplo, o

amarelo (a primeira cor primária que encontramos), que está em 60º, passa a ser 43 (o inteiro mais

próximo) na escala de números inteiros da imagem de 8 bits mostrada no enunciado do problema. Da

mesma forma, o verde, que é de 120º, torna-se 85 nessa imagem. A partir disso, calculamos facilmente

os valores das outras duas regiões, sendo 170 e 213. A região do meio é branco puro [proporções

iguais de vermelho, verde e azul na Figura 6.61 (a)] assim, o seu matiz, por definição, é 0. Isso

também acontece com o fundo preto.

Problema 6.18

Usando a Equação 6.2-3, vemos que o problema básico é que muitas cores diferentes têm o mesmo

valor de saturação. Isso foi demonstrado no Problema 6.12, em que vermelho puro, amarelo, verde,

azul, cíano, magenta, todos tinham uma saturação de 1. Istoé, enquanto nenhum dos componentes do

RGB for 0, a Equação 6.2-3 produz uma saturação de 1.

Considere as cores RGB (1, 0, 0) e (0, 0, 59, 0), que representam tons de vermelho e verde. Os tercetos

HSI para essas cores [da Equação 6.4-2 até a 6.4-4] são (0, 1, 0, 33) e (0, 33, 1, 0, 2),

respectivamente. Agora, os complementos dos valores RGB do início (veja Seção 6.5.2) são (0, 1, 1) e

(1, 0, 41, 1), respectivamente, e as cores correspondentes são cíano e magenta. Seus valores HSI [da

Equação 6.4-2 até a 6.4-4] são 0, 5, 1, 0, 66 e 0, 83, 0, 48, 0, 8, respectivamente. Assim, para o

vermelho, uma saturação inicial de 1 originou a saturação de 1 cíano complementar, enquanto que

para o verde, uma saturação inicial de 1 originou a saturação de 0, 48 magenta complementar. Ou seja,

58

a mesma saturação inicial resultou em duas saturações diferentes "complementares". Só a saturação

não é informação suficiente para calcular a saturação da cor complementar.

Problema 6.20

As transformações RGB para um complemento [da Figura 6.33 (b)] são:

onde i = 1, 2, 3 (para os componentes R, G e B). Mas da definição do espaço CMY da Equação 6.2-1,

sabemos que os componentes CMY correspondentes a e , que vamos indicar por meio de

números primos, são

Assim,

e

resulta

59

Problema 6.22

Com base na discussão da Seção 6.5.4, e com referência à roda de cor da figura 6.32, podemos

diminuir a proporção de amarelo em (1) diminuindo o amarelo, (2) aumentando o azul, (3)

aumentando o cíano e o magenta, ou (4) diminuindo o vermelho e o verde.

Problema 6.24

Conceitualmente, a abordagem mais simples, é transformar toda a imagem de entrada para o espaço de

cor HSI, efetuar a especificação do histograma em discussão na Seção 3.3.2 somente sobre o

componente de intensidade (I), (isolando H e S), e converter o componente intensidade resultante com

os componentes matiz e saturação de volta ao espaço de cor inicial.

Problema 6.27

(a) O cubo é composto de seis planos que se cruzam no espaço RGB. A equação geral para tal plano é

onde a, b, c e d são parâmetros e os zês são os componentes de qualquer ponto (vetor) z no espaço

RGB disposto no plano. Se um ponto z RGB não estiver disposto no plano e suas coordenadas forem

substituídas na equação precedente, a equação dará um valor positivo ou negativo, nunca vai retornar a

zero. Dizemos que z se encontra no lado positivo ou negativo do plano, dependendo se o resultado for

positivo ou negativo. Podemos mudar o lado positivo de um plano multiplicando seus coeficientes

(exceto d) por - 1. Suponhamos que testamos o ponto a dado no enunciado do problema para verificar

se está no lado positivo ou negativo de cada um dos seis planos que compõem a caixa, e alteramos o

coeficiente de qualquer plano para o qual o resultado fosse negativo. Então, a estará situado sobre o

lado positivo de todos os planos que compõem a caixa delimitadora. Na verdade todos os pontos

dentro do limite da caixa produzirão valores positivos quando suas coordenadas forem substituídas nas

60

equações dos planos. Os pontos fora da caixa darão, pelo menos, um valor negativo (ou zero se estiver

sobre o plano. Assim, o método consiste em substituir os pontos de cor desconhecidos nas equações

de todos os seis planos. Se todos os resultados forem positivos, o ponto estará dentro da caixa, senão

estará fora da caixa. No enunciado do problema foi pedido um diagrama de fluxo para facilitar a

avaliação da linha de raciocínio do aluno.

61

Capítulo 7


Problema 7.2

Uma pirâmide de aproximação média é formada por meio da estruturação de um bloco proporcional

2×2. Como a imagem inicial é de tamanho 4 × 4, J = 2 e f (x, y), foi colocada no nível 2 da pirâmide de

aproximação média. O nível de aproximação 1 é (tomando as proporções do bloco 2 × 2 sobre f (x, y) e

a subamostragem)

e o nível de aproximação 0 é, similarmente, [8,5]. A pirâmide de aproximação média completa é

Usa-se replicação de pixel na geração de predição complementar da pirâmide residual. O nível 0 da

predição da pirâmide residual é a aproximação de mais baixa resolução, [8.5]. Obtém-se o nível 2 de

predição residual pela amostragem da aproximação do nível 1 e subtração da aproximação do nível de

2 (imagem original). Assim, obtemos

62

Da mesma forma, a predição residual de nível 1 é obtida por sobre amostragem de aproximação do

nível 0 e subtraindo-o da aproximação do nível 1 para resultar

A predição da pirâmide residual é, portanto,

Problema 7.3

O número de elementos em uma pirâmide de nível J + 1, onde é delimitada por ou

(veja a Seção 7.1.1):

Para J > 0. Podemos gerar a seguinte tabela:

63

Todos exceto o caso trivial, J = 0 são expansões. O fator de expansão é função de J e delimitado por

3/4 ou 1,33.

Problema 7.7

A reconstrução é feita invertendo o processo de decomposição - ou seja, substituindo o operador de

sub-amostragem pelo de superamostragem e os filtros de análise pelo seu filtro de síntese homólogo,

como mostra a Figura 7.7.

Problema 7.10

A base é ortonormal e os coeficientes são calculados pelo vetor equivalente da Equação 7.2-5:

64

então,

Problema 7.13

Da Equação 7.2-19, verificamos que

e usando a definição da função wavelet de Haar da Equação 7.2-30, obtenha o gráfico da Figura 7.13.

Para expressar ψ3,3 (x) como função de funções de escala, empregamos a Equação 7.2-28 e o vetor

wavelet de Haar definido no Exemplo 7.6 - ou seja, hψ (0) = 1 / √2 e hψ (1) = -1 / √2. Assim, obtemos

de modo que

65

Então, já que ψ3,3(x) = 2√2ψ (8x - 3) da equação acima, substituindo resulta

Problema 7.17

Intuitivamente, a transformada contínua de wavelet (CWT) calcula o índice de semelhança entre o

sinal e o wavelet em diversas escalas e translações. Quando o índice é grande, a semelhança é forte, do

contrário, é fraca. Assim, se uma função for semelhante a si mesma em diferentes escalas, o

coeficiente de semelhança também será. Os valores do coeficiente de CWT (o índice) têm um padrão

característico. Como resultado, pode-se dizer que a função cujo TCW é mostrado é autossimilar, como

um sinal fractal.

66

Problema 7.18

(b) A DWT é a melhor opção quando precisamos de uma representação com economia de espaço que

seja suficiente para a reconstrução da função ou imagem original. A CWT é muitas vezes mais fácil de

interpretar, porque a redundância embutida tende a reforçar os traços da função ou imagem. Por

exemplo, veja a autossimilaridade do Problema 7.17.

Problema 7.19

O banco de filtro é o primeiro banco na Figura 7.19, como mostrado na Figura 7.19:

Problema 7.21

(a) Entrada φ (n) = {1, 1, 1, 1, 1, 1, 1, 1} = φ0, 0 (n) para uma transformada de wavelet com três

escalas com o escalonamento de Haar e as funções wavelet. Desde que os coeficientes da transformada

de wavelet medem as semelhanças entre a entrada e as funções de base, a transformada resultante é

O termo Wφ (0,0) pode ser calculado usando a Equação 7.3-5, com j0 = k = 0.

Problema 7.22

Ambos são representações de multirresolução que empregam uma imagem de aproximação de

resolução reduzida e uma série de imagens de diferença. Para o FWT, essas imagens de diferença são

os coeficientes de detalhe da transformada; para a pirâmide, são as predições residuais.

Para construir a aproximação da pirâmide que corresponde à transformada da Figura 7.10 (a), vamos

utilizar o FWT-1, 2-d banco de síntese da Figura 7.24 (c). Em primeiro lugar, coloque os coeficientes

de aproximação 64 × 64 da Figura 7.10 (a) na parte superior da pirâmide que está sendo

67

construída. Em seguida, utilize-os, juntamente com os coeficientes de detalhe 64 × 64 horizontal,

vertical e diagonal do canto superior esquerdo da Figura 7.10 (a), para impelir a entrada do banco de

filtro na Figura 7.24(c). O resultado será uma aproximação de 128 × 128 da imagem original e deverá

ser usado como o próximo nível de aproximação da pirâmide. A aproximação de 128 × 128 é então

usada com os três coeficientes de detalhe da imagem na parte ¼ superior da transformada da

Figura 7.10 (a) para impelir a síntese do banco de filtro da Figura 7.24 (c) uma segunda vez -

produzindo uma aproximação de 256 × 256 que é colocada como o próximo nível de aproximação da

pirâmide. Esse processo é então repetido uma terceira vez para recuperar a imagem original de 512 ×

512, que foi colocada no fundo da aproximação da pirâmide. Assim, a aproximação tem quatro níveis.

Problema 7.24

Como pode ser visto na sequência de imagens que são mostradas, o DWT não é constante de

deslocamento. Se a entrada for deslocada, a transformada sofre alteração. Uma vez que todas as

imagens originais no problema são de 128 × 128, eles se tornam as entradas Wφ (7, m, n) para o

processo computacional da FWT. O banco de filtro da Figura 7.24 (a) pode ser usado como j + 1 = 7.

Para a transformada de escala única, são gerados coeficientes da transformada Wφ (6, m, n) e Wiψ (6,

m, n) para i = H, V, D. Com wavelets Haar, o processo de transformação subdivide a imagem em

blocos 2 × 2 que não se sobrepõe e calculam médias e diferenças de dois pontos (por vetores de escala

e wavelet). Assim, nas duas primeiras transformadas mostradas, não há coeficientes de detalhe

horizontal, vertical ou diagonal; as imagens de entrada são constantes em todos os blocos 2 × 2 (assim

todas as diferenças são 0). Se a imagem original for deslocada em um pixel, são gerados os

coeficientes de detalhe, uma vez que existem áreas 2 × 2 que não são constantes. Esse é o caso da

terceira transformada mostrada.

68

Capítulo 8


Problema 8.4

(a) A Tabela 8.4 mostra os valores de intensidade iniciais, seus códigos de 8 bits, a soma da IGS usada

em cada etapa, o código IGS de 4 bits e o seu valor equivalente decodificado (o equivalente decimal

do código IGS multiplicado por 16), além do erro entre as intensidades IGS decodificadas e seus

valores de entrada, e o erro quadrático.

(b) Usando a Equação 8.1-10 e os valores de erro quadrático da Tabela 8.4, o erro rms (erro médio

quadrático) é

ou cerca de 7, 8 níveis de intensidade. Da Equação 8.1-11 a proporção do sinal-ruído é de

69

Problema 8.6

Calculam-se os fatores de conversão usando a relação logarítmica

Assim, 1 Hartley = 3,3219 bits e um nat = 1,4427 bits.

Problema 8.7

Se o conjunto de símbolos de fonte forem com probabilidades

. Então, usando a Equação 8.1-6 e o fato de que a soma de todos

os é 1, obtemos

70

Usando a relação de log do Problema 8.6, torna-se

Em seguida, multiplicando a inequação lnx ≤ x -1 por -1 para obter ln 1 / x ≥ 1 - x e aplicando ao

último resultado,

de modo que

logq ≥ H.

Portanto, H é sempre inferior ou igual à logq. Além disso, tendo em vista a condição de igualdade (x =

1) para ln 1 / x ≥ 1 - x, que foi introduzida em apenas um ponto na derivação acima, teremos a

igualdade estrita se e somente se = 1/q para todos os j.

71

Problema 8.9

(d) Podemos calcular a frequência relativa de pares de pixels assumindo que a imagem esteja

conectada linha a linha e do final ao início. As probabilidades resultantes estão listadas na Tabela 8.9-

2.

A entropia dos pares de intensidade é estimada utilizando a Equação 8.1-7 e dividindo por 2 (porque

os pixels são considerados em pares):

A diferença entre esse valor e a entropia em (a) nos diz que se pode criar um mapeamento para

eliminar (1, 811 - 1,25) = 0,56 bits / pixel de redundância espacial.

Problema 8.15

Para decodificar a

72

1. Conte o número de 1s em uma varredura da esquerda para a direita de uma sequência de bits

concatenada antes de atingir o primeiro 0, e iguale i ao número de 1s que foi contado.

2. Obtenha os bits k + i após o 0 identificado na etapa 1 e faça d ser equivalente decimal.

3. O inteiro decodificado será então,

Por exemplo, para decodificar o primeiro código em um fluxo de bits 10111011...,

façamos i = 1, o número de 1s em uma varredura do fluxo de bits da esquerda para a direita antes de

encontrar o primeiro 0. Obtenha os bits 2 + 1 = 3, após o 0, ou seja, 111, de modo que d = 7. O inteiro

decodificado será então

Repita o processo para a palavra-código seguinte, que começa com o sequência de bits 011...

Problema 8.18

O processo aritmético de decodificação é o inverso do processo de codificação. Comece dividindo o

intervalo (0, 1) de acordo com as probabilidades dos símbolos. Isso é mostrado na Tabela 8.18. O

decodificador sabe imediatamente que a mensagem de 0,23355 começa com um e, uma vez que a

mensagem codificada está no intervalo entre [0, 2, 0, 5). Isto deixa claro que o segundo símbolo é um

a, que restringe o intervalo para [0, 2, 0, 26). Para verificar além, divida o intervalo [0, 2, 0, 5) de

acordo com as probabilidades dos símbolos. Procedendo dessa forma, que é o mesmo procedimento

usado para codificar mensagem, temos eaii!.

73

Problema 8.20

A entrada para o algoritmo de decodificação LZW no Exemplo 8.7 é

O dicionário inicial, para ser coerente com a codificação, contém 512 locais com os primeiros 256

correspondendo a valores de intensidade de 0 a 255. O algoritmo de decodificação inicia obtendo o

primeiro valor codificado, produzido do valor correspondente do dicionário, e fixando a sequencia

reconhecida ao primeiro valor. Para cada valor adicional codificado, (1) produzimos a entrada do

dicionário para o(s) valor (es) do pixel, (2) adicionamos uma nova entrada no dicionário, cujo

conteúdo é a sequência reconhecida mais o primeiro elemento do valor codificado que está sendo

processado; e (3) fixamos a sequência reconhecida para o valor codificado que está sendo processado.

Para a saída codificada do Exemplo 8.12, a sequência de operações é a mostrada na Tabela

8.20. Observe, por exemplo, na linha 5 da tabela que a nova entrada do dicionário para a localidade

259 é 126-39, a concatenação da sequência reconhecida atualmente, 126, e o primeiro elemento do

valor codificado a ser processado é o 39 da entrada 39-39 na localização 256 do dicionário. A saída é

então lida a partir da terceira coluna da tabela, resultando

onde se supõe que o decodificador conhece, ou foi fornecido, o tamanho da imagem que foi

recebida. Note que o dicionário foi gerado à medida que a decodificação foi sendo realizada.

74

Problema 8.24

(a) - (b) Após o procedimento descrito na Seção 8.2.8, obtemos os resultados mostrados na Tabela

8.24.

Problema 8.27

O decodificador MPEG apropriado é mostrado na Figura 8.27.

75

Problema 8.29

A derivação continua substituindo a função de probabilidade uniforme nas equações (8.2-57) - (8.2-

59) e resolvendo as equações resultantes simultâneas com L = 4. A equação 8.2-58 resulta

Substituindo esses valores nas integrais definidas pela Equação 8.2-57, obtemos duas novas

equações. A primeira é (assumindo que ≤ A)

assim

A primeira dessas relações não faz sentido, uma vez que ambos e devem ser positivos. A

segunda relação é válida. A segunda integral resulta (observando que é menor que A, então a

integral de A ao ∞ é 0, por definição de p(s))

76

Substituindo da primeira simplificação integral nesse resultado, obtemos

Se voltarmos substituindo esses valores de , encontramos os valores e correspondentes:

e para

e para

Por não ser uma solução real (a segunda equação integral seria então avaliada de A a A,

resultando 0 ou nenhuma equação), a solução é dada pela segunda. Isso é,

77

Problema 8.34

Uma variedade de métodos para a inserção de marcas-d'água invisíveis nos coeficientes DFT

(Transformada Discreta de Fourier) de uma imagem tem sido relatadas na literatura. Aqui há uma

versão simplificada de uma na qual a inserção da marca d'água é feita da seguinte forma:

1. Crie uma marca-d'água, gerando um elemento P de uma sequência de números pseudorrandômica,

, provenientes de uma distribuição gaussiana com média zero e variância

unitária.

2. Calcule a DFT da imagem para a marca-d'água. Assumimos que a transformada não foi centrada

pré-multiplicando a imagem (-1) x + y.

3. Escolha coeficientes P/2 de cada um dos quatro quadrantes da DFT na faixa de frequência

média. Isso é facilmente realizado escolhendo coeficientes na ordem mostrada na Figura 8.34 e

pulando os primeiros coeficientes K (de baixa frequência) em cada quadrante.

4. Insira a primeira metade da marca-d'água nos coeficientes DFT escolhidos, para 1 ≤ i ≤ p/2,

nos quadrantes I e III da DFT usando

5. De forma semelhante, insira a segunda metade da marca-d'água nos coeficientes DFT escolhidos

dos quadrantes II e IV da DFT. Note que esse processo mantém a simetria da transformada de uma

imagem real-valorizada. Além disso, a constante α determina a força da marca-d'água inserida.

6. Calcule a TDF inversa com os coeficientes da marca-d’água substituindo os coeficientes não

marcados.

A extração da marca d’água é feita da seguinte forma:

1. Localize os coeficientes DFT que a contêm seguindo o processo de inserção no algoritmo fixado.

78

2. Calcule a marca-d’água usando

3. Calcule a correlação entre ω e ω e compare o limite T predeterminado para detectar se a marca está

presente.

79

Capítulo 8


Problema 8.4

(a) A Tabela 8.4 mostra os valores de intensidade iniciais, seus códigos de 8 bits, a soma da IGS usada

em cada etapa, o código IGS de 4 bits e o seu valor equivalente decodificado (o equivalente decimal

do código IGS multiplicado por 16), além do erro entre as intensidades IGS decodificadas e seus

valores de entrada, e o erro quadrático.

(b) Usando a Equação 8.1-10 e os valores de erro quadrático da Tabela 8.4, o erro rms (erro médio

quadrático) é

ou cerca de 7, 8 níveis de intensidade. Da Equação 8.1-11 a proporção do sinal-ruído é de

80

Problema 8.6

Calculam-se os fatores de conversão usando a relação logarítmica

Assim, 1 Hartley = 3,3219 bits e um nat = 1,4427 bits.

Problema 8.7

Se o conjunto de símbolos de fonte forem com probabilidades

. Então, usando a Equação 8.1-6 e o fato de que a soma de todos

os é 1, obtemos

81

Usando a relação de log do Problema 8.6, torna-se

Em seguida, multiplicando a inequação lnx ≤ x -1 por -1 para obter ln 1 / x ≥ 1 - x e aplicando ao

último resultado,

de modo que

logq ≥ H.

Portanto, H é sempre inferior ou igual à logq. Além disso, tendo em vista a condição de igualdade (x =

1) para ln 1 / x ≥ 1 - x, que foi introduzida em apenas um ponto na derivação acima, teremos a

igualdade estrita se e somente se = 1/q para todos os j.

82

Problema 8.9

(d) Podemos calcular a frequência relativa de pares de pixels assumindo que a imagem esteja

conectada linha a linha e do final ao início. As probabilidades resultantes estão listadas na Tabela 8.9-

2.

A entropia dos pares de intensidade é estimada utilizando a Equação 8.1-7 e dividindo por 2 (porque

os pixels são considerados em pares):

A diferença entre esse valor e a entropia em (a) nos diz que se pode criar um mapeamento para

eliminar (1, 811 - 1,25) = 0,56 bits / pixel de redundância espacial.

Problema 8.15

Para decodificar a

83

1. Conte o número de 1s em uma varredura da esquerda para a direita de uma sequência de bits

concatenada antes de atingir o primeiro 0, e iguale i ao número de 1s que foi contado.

2. Obtenha os bits k + i após o 0 identificado na etapa 1 e faça d ser equivalente decimal.

3. O inteiro decodificado será então,

Por exemplo, para decodificar o primeiro código em um fluxo de bits 10111011...,

façamos i = 1, o número de 1s em uma varredura do fluxo de bits da esquerda para a direita antes de

encontrar o primeiro 0. Obtenha os bits 2 + 1 = 3, após o 0, ou seja, 111, de modo que d = 7. O inteiro

decodificado será então

Repita o processo para a palavra-código seguinte, que começa com o sequência de bits 011...

Problema 8.18

O processo aritmético de decodificação é o inverso do processo de codificação. Comece dividindo o

intervalo (0, 1) de acordo com as probabilidades dos símbolos. Isso é mostrado na Tabela 8.18. O

decodificador sabe imediatamente que a mensagem de 0,23355 começa com um e, uma vez que a

mensagem codificada está no intervalo entre [0, 2, 0, 5). Isto deixa claro que o segundo símbolo é um

a, que restringe o intervalo para [0, 2, 0, 26). Para verificar além, divida o intervalo [0, 2, 0, 5) de

acordo com as probabilidades dos símbolos. Procedendo dessa forma, que é o mesmo procedimento

usado para codificar mensagem, temos eaii!.

84

Problema 8.20

A entrada para o algoritmo de decodificação LZW no Exemplo 8.7 é

O dicionário inicial, para ser coerente com a codificação, contém 512 locais com os primeiros 256

correspondendo a valores de intensidade de 0 a 255. O algoritmo de decodificação inicia obtendo o

primeiro valor codificado, produzido do valor correspondente do dicionário, e fixando a sequencia

reconhecida ao primeiro valor. Para cada valor adicional codificado, (1) produzimos a entrada do

dicionário para o(s) valor (es) do pixel, (2) adicionamos uma nova entrada no dicionário, cujo

conteúdo é a sequência reconhecida mais o primeiro elemento do valor codificado que está sendo

processado; e (3) fixamos a sequência reconhecida para o valor codificado que está sendo processado.

Para a saída codificada do Exemplo 8.12, a sequência de operações é a mostrada na Tabela

8.20. Observe, por exemplo, na linha 5 da tabela que a nova entrada do dicionário para a localidade

259 é 126-39, a concatenação da sequência reconhecida atualmente, 126, e o primeiro elemento do

valor codificado a ser processado é o 39 da entrada 39-39 na localização 256 do dicionário. A saída é

então lida a partir da terceira coluna da tabela, resultando

onde se supõe que o decodificador conhece, ou foi fornecido, o tamanho da imagem que foi

recebida. Note que o dicionário foi gerado à medida que a decodificação foi sendo realizada.

85

Problema 8.24

(a) - (b) Após o procedimento descrito na Seção 8.2.8, obtemos os resultados mostrados na Tabela

8.24.

Problema 8.27

O decodificador MPEG apropriado é mostrado na Figura 8.27.

86

Problema 8.29

A derivação continua substituindo a função de probabilidade uniforme nas equações (8.2-57) - (8.2-

59) e resolvendo as equações resultantes simultâneas com L = 4. A equação 8.2-58 resulta

Substituindo esses valores nas integrais definidas pela Equação 8.2-57, obtemos duas novas

equações. A primeira é (assumindo que ≤ A)

assim

A primeira dessas relações não faz sentido, uma vez que ambos e devem ser positivos. A

segunda relação é válida. A segunda integral resulta (observando que é menor que A, então a

integral de A ao ∞ é 0, por definição de p(s))

87

Substituindo da primeira simplificação integral nesse resultado, obtemos

Se voltarmos substituindo esses valores de , encontramos os valores e correspondentes:

e para

e para

Por não ser uma solução real (a segunda equação integral seria então avaliada de A a A,

resultando 0 ou nenhuma equação), a solução é dada pela segunda. Isso é,

88

Problema 8.34

Uma variedade de métodos para a inserção de marcas-d'água invisíveis nos coeficientes DFT

(Transformada Discreta de Fourier) de uma imagem tem sido relatadas na literatura. Aqui há uma

versão simplificada de uma na qual a inserção da marca d'água é feita da seguinte forma:

1. Crie uma marca-d'água, gerando um elemento P de uma sequência de números pseudorrandômica,

, provenientes de uma distribuição gaussiana com média zero e variância

unitária.

2. Calcule a DFT da imagem para a marca-d'água. Assumimos que a transformada não foi centrada

pré-multiplicando a imagem (-1) x + y.

3. Escolha coeficientes P/2 de cada um dos quatro quadrantes da DFT na faixa de frequência

média. Isso é facilmente realizado escolhendo coeficientes na ordem mostrada na Figura 8.34 e

pulando os primeiros coeficientes K (de baixa frequência) em cada quadrante.

4. Insira a primeira metade da marca-d'água nos coeficientes DFT escolhidos, para 1 ≤ i ≤ p/2,

nos quadrantes I e III da DFT usando

5. De forma semelhante, insira a segunda metade da marca-d'água nos coeficientes DFT escolhidos

dos quadrantes II e IV da DFT. Note que esse processo mantém a simetria da transformada de uma

imagem real-valorizada. Além disso, a constante α determina a força da marca-d'água inserida.

6. Calcule a TDF inversa com os coeficientes da marca-d’água substituindo os coeficientes não

marcados.

A extração da marca d’água é feita da seguinte forma:

1. Localize os coeficientes DFT que a contêm seguindo o processo de inserção no algoritmo fixado.

89

2. Calcule a marca-d’água usando

3. Calcule a correlação entre ω e ω e compare o limite T predeterminado para detectar se a marca está

presente.

90

Capítulo 9


Problema 9.2

(a) Com referência à discussão da Seção 2.5.2, a m- conectada é usada para evitar múltiplos caminhos

que são inerentes à 8- conectada. Em um pixel de espessura, com a fronteira conectada

completamente, esses caminhos múltiplos se manifestam em quatro padrões básicos mostrados na

Figura 9.2 (a). A solução para o problema é usar a transformada aleatória para detectar os padrões e,

em seguida, alterar o pixel central para 0, eliminando assim os vários caminhos. A sequência de etapas

morfológicas para se conseguir isso é a seguinte:

onde A é a imagem de entrada que contém a fronteira.

Problema 9.4

(a) Aerosão é definida como interseção. A interseção de dois conjuntos convexos é também convexa.

(b) Veja a Figura 9.4(a) Tenha em mente que os conjuntos digitais em questão são os pontos pretos

maiores. As retas são mostradas por conveniência em visualizar qual seriam os conjuntos contínuos,

91

não fazem parte dos conjuntos aqui considerados. O resultado da dilatação nesse caso não é convexo,

pois o ponto central não está no conjunto.

Problema 9.5

Veja a Figura 9.5. O centro de cada elemento estruturante é apresentado como um ponto preto.

(a) Esta solução foi obtida por meio da erosão do conjunto original (indicado pelotracejado) com o

elemento estruturante mostrado (note que a origem está na parte inferior, à direita).

(b) Esta solução foi obtida erodindo o conjunto original (indicado pelo tracejado) com o elemento

estruturante retangular comprido mostrado.

(c) Esta solução foi obtida primeiro erodindo a imagem mostrada para baixo, em duas retas verticais,

utilizando o elemento estruturante retangular (note que esses elementos são ligeiramente mais altos

que o ponto central da figura). Esse resultado foi então dilatado com o elemento estruturante circular.

(d) Esta solução foi obtida primeiro dilatando o conjunto original com o disco grande mostrado. A

imagem dilatada foi erodida com um disco cujo diâmetro era igual à metade do diâmetro do disco

usado para a dilatação.

Problema 9.7

(a) A imagem dilatada crescerá sem limites.

(b) O conjunto de um elemento (ou seja, uma imagem de um pixel).

92

Problema 9.9

A prova, que consiste em mostrar que a expressão

para todos

decorre diretamente da definição de translação, porque o conjunto (B)x tem elementos da forma x + b

para b ∈ B. Ou seja, x + b ∈ A para cada b ∈ B implica que (B) x ⊆ A. Por outro lado, (B) x ⊆ A

implica que todos os elementos de (B)x estão contidos em A, ou x + b ∈ A para cada b ∈ B.

Problema 9.11

A abordagem é para provar que

para e

Os elementos (B)x são da forma x - b para b ∈ B. A condição (B)x ∩ A ≠ Ø implica que para algum b ∈

B, x - b ∈ A ou x - b = a para algum a ∈ A (note na equação anterior que x = a + b). Por outro lado, se x

= a + b para algum a ∈ A e b ∈ B, então x - b = a ou x - b ∈ A, o que implica que (B) x ∩ A = Ø.

Problema 9.14

Começando com a definição de fechamento

93

A prova da outra propriedade de dualidade segue uma abordagem semelhante.

Problema 9.15

(a) Aerosão de um conjunto A por B é definida como o conjunto de todos os valores de transformação,

z, de B tal que (B)z esteja contido em A. Se a origem de B estiver contida em B, em seguida, o conjunto

de pontos que descreve a erosão é simplesmente todos os locais possíveis da origem de B tal que (B)z

esteja contido em A. Em seguida, decorre que a partir dessa interpretação (e da definição de erosão) a

erosão de A por B é um subconjunto de A. Da mesma forma, a dilatação de um conjunto C por B é o

conjunto de todos os locais de origem de B tal que a interseção de C e (B)z não está vazia. Se a origem

de B estiver contida em B, implica que C é um subconjunto da dilatação de C por B. Da Equação (9.3-

1, sabemos que A ◦ B = (A _ B) ⊕ B. Faça que C indique a erosão de A por B. Já foi estabelecido que

C é um subconjunto de A. Da discussão anterior, sabemos também que C é um subconjunto da

dilatação de C por B. Mas C é um subconjunto de A, assim a abertura de A por B (a erosão de A por B

seguida de uma dilatação do resultado) é um subconjunto de A.

Problema 9.18

Foi possível reconstituir os três grandes quadrados para o seu tamanho original, pois eles não estavam

totalmente erodidos e a geometria dos objetos e o elemento estruturante era o mesmo (ou seja, eram

quadrados). Isso também teria sido verdade se os objetos e os elementos estruturantes fossem

retangulares. No entanto, uma reconstrução completa, por exemplo, dilatando um retângulo que

estivesse parcialmente erodido por um círculo, não seria possível.

Problema 9.20

A principal diferença entre o lago e as outras duas características é que o primeiro forma um contorno

fechado. Assumindo que as formas são processadas uma de cada vez,abordagem básica de duas fases

para diferenciar entre as três formas é a seguinte:

94

Etapa 1. Aplique um detector de ponto final ao objeto. Se não encontrar pontos finais, o objeto é um

lago. Caso contrário, é uma baía ou uma reta.

Etapa 2. Há inúmeras maneiras de diferenciar uma baía de uma reta. Uma das mais simples é

determinar uma reta juntando os dois pontos finais do objeto. Se o E do objeto e a reta possuem apenas

dois pontos, a Figura é uma baía. Caso contrário, será uma reta. Há casos patológicos em que esse

teste irá falhar, e será necessário incorporar inteligência adicional no processo, mas esses casos

tornam-se menos prováveis com o aumento da resolução de figuras mais diluídas.

Problema 9.22

(a) Tomando como referência o exemplo mostrado na Figura 9.22, a fronteira que resulta de utilizar o

elemento estruturante na Figura 9.15 (c) geralmente forma um caminho de 8- conectados (figura à

esquerda), enquanto que a fronteira resultante do elemento estruturante na Figura 9.13 (b) forma um

caminho de 4-conectados (figura à direita).

Problema 9.23

(a) Se não for permitido tocar as esferas, a solução do problema começa pela determinação de quais

pontos são pontos de fundo (preto). Para fazer isso, escolhemos um ponto preto no contorno da

imagem e determinamos todos os pontos negros conectados a ele usando um algoritmo de componente

conectado (Seção 9.5.3). Esses componentes conectados são rótulos com valor diferente de 1 ou 0. Os

pontos negros remanescentes são interiores às esferas. Podemos preencher todas as esferas com o

branco aplicando o algoritmo de preenchimento de buracos da Seção 9.5.2 até que todos os pontos

negros do interior tenham se transformado em pontos brancos. O aluno alerta irá perceber que se os

95

pontos do interior já são conhecidos, podem simplesmente ser transformados em pontos

brancos, preenchendo assim as esferas sem ter que fazer o preenchimento da região como um

procedimento separado.

Problema 9.24

Indique a imagem original como A. Crie uma imagem do mesmo tamanho que a original, mas

constituída de todos os 0s, chame-a de B. Escolha um ponto arbitrário identificado como 1 em A,

chame-o de , e aplique o algoritmo do componente conectado. Quando o algoritmo convergir, foi

detectado um componente conectado. Rotule e copie em B o conjunto de todos os pontos em A que

pertencem aos componentes conectados recém encontrados, defina os pontos como 0 em A e chame a

imagem modificada de . Escolha um ponto arbitrário rotulado de 1 em , chame-o de , e

repita o procedimento recém fornecido. Se houver K componentes conectados na imagem original,

esse procedimento irá resultar em uma imagem constituída de todos os 0's após as aplicações de K do

procedimento recém fornecido. A imagem B irá conter K componentes conectados rotulados.

Problema 9.27

A erosão é o conjunto de pontos z tal que B, transladado por z, está contido em A. Se B for um ponto

único, essa definição será satisfeita apenas pelos pontos que contêm A, então a erosão de A por B é

simplesmente A. Da mesma forma, a dilatação é o conjunto de pontos z tal que B(B = B, neste caso),

transladado por z, se sobrepõe a A, por um ponto pelo menos. Devido a B ser um ponto único, o único

conjunto de pontos que satisfaz essa definição é o que contém A, assim a dilatação de A por B é A.

Problema 9.29

Considere o primeiro caso para n = 1:

96

onde a terceira etapa decorre da lei de DeMorgan , a quarta etapa

decorre da propriedade de dualidade da erosão e dilatação (ver Seção 9.2.3), a quinta etapa decorre da

simetria de SE, e a última etapa decorre da definição da dilatação geodésica. A próxima etapa, E (2)G

(F), envolveria a erosão geodésica do resultado acima. Mas como esse resultado é simplesmente um

conjunto, podemos obtê-lo em termos de dilatação. Ou seja, complementando o resultado recém

mencionado, complementar G, calcular a dilatação geodésica de dimensão 1 dos dois, e complementar

o resultado.

Continuando dessa maneira concluímos, que

Similarmente,

Como antes,

Problema 9.31

(a) Considere o caso quando n = 2

97

onde a segunda e a terceira retas decorrem da propriedade de dualidade na Equação 9.2-5. Para um

número arbitrário de erosões,

que, quando expandida, irá resultar

(b) Comprovado de maneira similar.

Problema 9.33

(a) Da Equação 9.6-1,

A segunda etapa decorre da definição do complemento de uma função de escala de cinza, ou seja, o

mínimo de um conjunto de números é igual ao negativo do máximo do negativo daqueles números. A

98

terceira etapa decorre da definição do complemento. A quarta etapa decorre da definição da dilatação

de escala de cinza na Equação 9.6-2, usando o fato de que . A

última etapa decorre da definição do complemento . A outra propriedade de dualidade é

comprovada de forma similar.

(c) Comprovamos a primeira propriedade da dualidade. Começamos com uma dilatação geodésica de

dimensão 1:

Elemento estruturante

(b)

Figura 9.35

A segunda etapa decorre da definição da dilatação geodésica. A terceira etapa decorre do fato de o

pointwise mínimo de dois conjuntos de números ser o negativo do pointwise máximo de dois

números. A quarta e a quinta etapas decorrem da definição do complemento. A sexta etapa decorre da

dualidade da dilatação e da erosão (usamos o fato dado que b = b). A última etapa decorre da definição

de erosão geodésica.

99

A próxima etapa na iteração, envolveria a dilatação geodésica de dimensão 1 do

resultado anterior. Mas como esse resultado é simplesmente um conjunto, podemos obtê-lo em termos

de erosão. Ou seja, complementando o resultado recém mencionado, complementar g, calcular a

erosão geodésica dos dois, e complementar o resultado. Continuando dessa maneira, concluiremos

que

A outra propriedade é comprovada de forma semelhante.

Problema 9.35

(a) Os picos de ruído são mostrados de forma geral na Figura 9.35 (a), com outras possibilidades

intermediárias. A amplitude é irrelevante neste caso, apenas a forma dos picos de ruído é de

interesse. Para remover esses picos realiza-se uma abertura com um elemento estruturante cilíndrico

de raio superior a , como mostrado na Figura 9.35 (b). Observe que a forma do elemento

estruturante combina com a forma conhecida dos picos de ruído.

Problema 9.36

(a) Pinte os pixels da borda da imagem da mesma cor das partículas (branco). Chame o conjunto

resultante de pixels da fronteira B. Aplique o algoritmo do componente conectado (Seção

9.5.3). Todos os componentes conectados que contêm elementos de B são partículas que se fundiram

com a borda da imagem.

100

Capítulo 10


Problema 10.1

Expanda f (x + Δx) em uma série de Taylor em x:

O incremento na variável espacial x foi definido na Seção 2.4.2 como 1, por isso, fazendo Δx = 1 e

mantendo somente os termos lineares, obtemos o resultado

que está de acordo com a Equação 10.2-1.

Problema 10.2

As máscaras teriam os coeficientes mostrados na Figura 10.2. Cada máscara produziria um valor de

zero quando centrada em segmento contínuo de tres pixels orientado na direção favorecida por ela. Por

outro lado, a resposta seria a + 2 quando a máscara fosse centrada em um intervalo de um pixel em um

segmento de três pixels orientado na direção favorecida pela máscara.

Problema 10.4

(a) As linhas eram mais espessas do que a largura das máscaras do detector de linhas. Assim, quando,

por exemplo, uma máscara estava centralizada na linha ela viu uma área constante e deu uma resposta

de 0.

101

Problema 10.5

(a) A Primeira linha na Figura 10.5 mostra uma imagem de degrau, inclinação e borda, um corte

horizontal através de seus centros. Da mesma forma, a segunda linha mostra o gradiente das imagens

correspondentes e cortes horizontais através de seus centros. As bordas finas escuras nas imagens

foram incluídas para maior clareza na definição das bordas das imagens; não fazem parte dos dados .

Problema 10.7

A Figura 10.7 mostra a solução.

102

Imagem

Corte horizontal

Primeira derivada

Segunda derivada

Figura 10.7

103

Problema 10.9

Primeiro considere as máscaras de Sobel das Figuras 10.14 e 10.15. Uma maneira simples de provar

que essas máscaras dão resultados isotrópicos para segmentos de borda orientados a múltiplos de 45º é

pela obtenção das respostas da máscara para os quatro segmentos de borda genéricos mostrados na

Figura 10.9, que são orientados a incrementos de 45º. O objetivo é mostrar que as respostas das

máscaras de Sobel são indistinguíveis para estas quatro bordas. Observamos por meio da Tabela 10.9

que este é o caso, que mostra a resposta de cada máscara de Sobel para os quatro segmentos de borda

genéricos. Vemos que em cada caso a resposta da máscara que corresponde à direção da borda é (4a -

4b), e a resposta da máscara da correspondente ortogonal é 0. A resposta das duas máscaras restantes é

(3a - 3b) ou (3b - 3a). O sinal de diferença não é significativo porque o gradiente é calculado elevando

ao quadrado ou pelo valor absoluto das respostas da máscara. A mesma linha de raciocínio se aplica às

máscaras de Prewitt.

Problema 10.11

(a) Os operadores são os seguintes (os números negativos são mostrados sublinhados):

111 110 101 011 111 110 101 011

000 101 101 101 000 101 101 101

111 011 101 110 111 011 101 110

Problema 10.13

(a) A média local em um ponto (x, y) em uma imagem é dada por

104

onde Sxy é a região na imagem circundada pela máscara média n × n quando esta for centrada em (x, y),

e zi são as intensidades dos pixels da imagem naquela região. A parcial

é então dada por

A primeira soma à direita pode ser interpretada como todos os pixels do segundo somatório menos os

pixels da primeira linha da máscara, além da linha pega pela máscara ao mover-se de (x, y) para (x + 1,

y). Assim, podemos escrever a equação anterior como

Essa expressão dá o valor da nas coordenadas (x, y) da imagem suavizada. Da mesma

forma,

A magnitude da borda da imagem correspondente à imagem suavizada F (x, y) é então dada por

105

Problema 10.14

(a) Procederemos da seguinte forma:

a quarta linha decorre do fato que

e

Problema 10.15

(b) A resposta é sim para as funções que satisfazem certas condições brandas e se o método de

interseção zero for baseado em operadores rotacionais, como a função LoG, e em um limiar de

0. Propriedades geométricas de interseção zero em geral são explicadas com algum detalhe no paper

106

intitulado "On Edge Detection", por V. Torre e T. Poggio, IEEE Trans. Pattern Analysis and Machine

Intell, v. 8, n. 2, 1986, p. 147-63. É uma indicação de leitura excelente para alunos de graduação

examinar esse título e tornarem-se familiarizados com os fundamentos de matemática de detecção de

bordas.

Problema 10.18

(a) A Equação 10.2-21 pode ser escrita da seguinte forma em separado

Da Equação 3.4-2 e da equação anterior, a convolução de G(x, y) e f(x, y) pode ser escrita como

onde a = (n - 1) / 2 e n é o tamanho da máscara de n × n obtida por amostragem na Equação 10.2-

21. A expressão entre colchetes é a convolução 1-D do termo exponencial, , com as linhas

f(x, y). Então, a soma o externa é a convolução de e-s 2/2σ2

com as colunas do resultado. Demonstrado

de outra maneira,

Problema 10.19

(a) Como mostra a Equação 10.2-25 as duas primeiras etapas do algoritmo podem ser resumidas em

uma equação:

107

Usando a definição do operador laplaciano, podemos expressar essa equação como

onde a segunda etapa decorre do Problema 10.18, com e .

Os termos dentro dos dois colchetes são os mesmos, portanto, são requeridas apenas duas convoluções

para implementá-los. Usando as definições na Seção 10.2.1, os parciais podem ser escritos como

e

O primeiro termo pode ser implementado via convolução com uma máscara de 1 × 3 com coeficientes,

[1 - 2 1], e a segunda com uma máscara de 3 × 1 com os mesmos coeficientes. Fazendo e

representar esses dois operadores máscara, teremos o resultado final:

que requer um total de quatro diferentes operações de convolução 1-D.

(b) Se usarmos o algoritmo como mencionado neste livro, envolver uma imagem M × N com uma

máscara n × n exigirá n2 × M × N multiplicações (veja a solução do Problema 10.18). Então a

convolução com uma máscara laplaciana 3 × 3 vai adicionar outras 9 × M × N multiplicações para um

total de (n2 + 9) × M × N multiplicações. Decompor uma convolução 2-D em 1-D requer 2nMN

multiplicações, como indicado na solução do Problema 10.18. Duas convoluções adicionais da

108

imagem resultante com as máscaras derivadas 3 × 1 e 1 × 3 acrescentam 3MN + 3MN = 6MN

multiplicações. A vantagem computacional é então

que é independente do tamanho da imagem. Por exemplo, para n = 25, A = 11, 32, assim, leva a ordem

de 11 vezes mais multiplicações se for usada a convolução direta 2-D.

Problema 10.21

As partes (a) a (c) são mostradas nas linhas de 2 a 4 da Figura 10.21.

Problema 10.22

(b) e

Problema 10.23

(a) O ponto 1 tem coordenadas x = 0 e y = 0. Substituindo na Equação 10.2-38 resulta ρ = 0, que,

demarcando como ρ versus θ, é uma linha reta.

(b) Apenas a origem (0, 0) produziria esse resultado.

(c) Em θ = +90◦, resulta da Equação 10.2-38, que x • (0) + y • (1) = ρ, ou y = ρ. Em θ = - 90º, x • (0) +

y • (-1) = ρ, ou y = ρ. Assim, é uma adjacência reflexiva.

Problema 10.26

A essência do algoritmo é calcular em cada etapa o valor médio, , de todos os pixels cujas

intensidades forem menores que ou iguais ao limiar anterior e, do mesmo modo, o valor médio, ,

de todos os pixels com valores que excedam esse limiar. Igualar pi = ni / n indica o componente i-

ésimo do histograma da imagem, onde ni é o número de pixels com intensidade i, e n é o número total

de pixels na imagem. Os valores válidos de i estão na faixa entre 0 ≤ i ≤ L -1, onde L é o número de

intensidades e i é um inteiro. Pode se calcular as médias em qualquer etapa k do algoritmo:

109

onde

e

O termo I(k - 1) é o menor inteiro menor que ou igual a T (k -1) e T (0) dado. O próximo valor do

limiar será então

110

Problema 10.27

Conforme apresentado na Seção 10.3.2, assumimos que o limiar inicial é escolhido entre as

intensidades mínima e máxima da imagem. Para iniciar, considere o histograma na Figura 10.27. Ele

mostra o limiar da k-ésima etapa iterativa e o fato que a média m1(k + 1) será calculada usando

intensidades maiores que T (k) vezes os valores de seu histograma. Da mesma forma, m2 (k + 1) será

calculado usando valores de intensidades menores que ou iguais a T (k) vezes seus valores de

histograma. Então, . A prova consiste de

duas partes. Em primeiro lugar, provamos que o limiar está entre 0 e L - 1. Em seguida, provamos que

o algoritmo converge para um valor entre esses dois limites.

Para provar que o limiar está limitado, escrevemos T(k + 1) = 0,5 [m1(k + 1) + m2(k + 1)]. Se m2(k + 1)

= 0, então m1(k + 1) será igual à média da imagem M, e T(k + 1) será igual a M/2 que é menor que L -

1. Se m2(k + 1) for zero, vale a mesma condição. Ambos m1 e m2 não podem ser zero

simultaneamente, de modo que T(k + 1) será sempre maior que 0 e menor do que L - 1.

Para provar a convergência, temos que considerar três condições possíveis:

1. T(k + 1) = T(k), no caso em que o algoritmo tenha convergido.

2. T(k + 1) < T(k), caso em que o limiar move para a esquerda.

3. T(k + 1) > T (k), caso em que o limiar move para a direita.

No caso (2), quando o valor limiar move para a esquerda, m2 irá diminuir ou permanecer o mesmo e

m1 também irá diminuir ou permanecer o mesmo (o fato de m1 diminuir ou permanecer o mesmo não

necessariamente é evidente. Se não consegue perceber isso, desenhe um histograma simples e se

111

convença observando o que ele faz), dependendo de quanto o limiar se moveu e dos valores do

histograma. No entanto, nenhum limiar pode aumentar. Se nem a média muda, então T(k + 2) será

igual a T(k + 1) e o algoritmo irá parar. Se uma ou outra (ou ambas) as médias diminuírem, então T(k

+ 2) < T(k + 1), e o novo limiar se moverá mais para a esquerda. Isso fará que apenas as condições

recém indicadas aconteçam de novo, então a conclusão é que, se os limiares começarem a se mover

para a esquerda, sempre vão mover para a esquerda, e o algoritmo eventualmente irá parar com um

valor T > 0, que sabemos ser o limite inferior de T. Como o limiar sempre diminui ou para de mudar,

as oscilações são impossíveis, então é garantido que o algoritmo convirja.

O caso (3) faz que o limiar se mova para a direita. Um argumento semelhante à discussão anterior

estabelece que se o limiar começar a se mover para a direita, ou irá convergir ou continuará se

movendo para a direita e eventualmente irá parar com um valor inferior a L - 1. Como o limiar sempre

aumenta ou para de mudar, as oscilações são impossíveis, então é garantido que o algoritmo convirja.

Problema 10.29

O valor do limiar de convergência é independente do valor inicial se o valor inicial do limiar for

escolhido entre as intensidades mínima e máxima da imagem (sabemos do Problema 10.27 que o

algoritmo converge nessa condição). O limiar final não será independente do valor inicial escolhido

para T se esse valor não satisfizer essa condição. Por exemplo, considere uma imagem com o

histograma na Figura 10.29. Suponha que selecionamos o limiar inicial T (1) = 0. Então, na próxima

etapa iterativa, m2(2) = 0, m1(2) = M e T (2) = M/2. Devido a m2 (2) = 0, segue-se que m2(3) = 0, m1(3)

= M e T (3) = T (2) = M/2. Quaisquer iterações seguintes produzirão o mesmo resultado, então o

112

algoritmo converge com o valor errado do limiar. Se tivéssemos começado com Imin T <(1)< Imax, o

algoritmo teria convergido corretamente.

Problema 10.30

(a) Para um histograma uniforme podemos visualizar os níveis de intensidade como pontos de unidade

de massa ao longo do eixo intensidade do histograma. Quaisquer valores m1(k) e m2(k) são as médias

dos dois grupos de valores de intensidade G1 e G2. Como o histograma é uniforme, estes são os centros

de massa de G1 e G2. Sabemos da solução do Problema 10.27 que se T inicia movendo-se para a

direita, sempre irá mover nessa direção, ou parar. O mesmo vale para o movimento para a

esquerda. Agora, presuma que T(k) chegou ao centro de massa (média intensidade). Porque

todos os pontos têm peso igual (lembre-se de que o histograma é uniforme), se T(k +1) mover para a

direita G2 vai adquirir, digamos, Q novos pontos. Mas G1 vai perder o mesmo número de pontos, então

a soma m1 + m2 será a mesma e o algoritmo irá parar.

Problema 10.32

(a)

utilizou-se o fato de que mG = P1m1 + P2m2 e P1 + P2 = 1. Isso prova a primeira parte da Equação 10.3-

15.

(b) Em primeiro lugar, temos que demonstrar que

Fazemos isso da seguinte forma:

113

Então,

Problema 10.35

(a) Façamos que R1 e R2 indiquem as regiões cujas intensidades dos pixels sejam maiores do que T e

menores ou iguais a T, respectivamente. O limiar T é simplesmente um valor de intensidade, por isso é

mapeado pela função de transformação para o valor T’ = 1 - T. Valores de R1 são mapeados para R’1 e

valores de R2 são mapeados para R’2. O mais importante é que todos os valores R’1 estão abaixo de T’

e todos os valores de R’2 são iguais ou estão acima de T’. O sentido da inequação se inverteu, mas a

separabilidade das intensidades nas duas regiões foi preservada.

(b) A solução em (a) é um caso especial de um problema mais genérico. Um limiar é simplesmente um

local na escala de intensidade. Qualquer função de transformação que preserve a ordem das

intensidades irá preservar a separabilidade estabelecida pelo limiar. Assim, qualquer função

monotônica (crescente ou decrescente) irá preservar essa ordem. O valor do novo limiar é

simplesmente o antigo limiar processado com a função de transformação.

114

Problema 10.37

(a) A primeira coluna seria preta e todas as outras seriam brancas. O motivo: um ponto na imagem

segmentada é definido como 1 se o valor da imagem nesse ponto exceder b naquele ponto. Mas b = 0,

então todos os pontos da imagem maiores que 0 serão definidos como 1 e todos os outros pontos serão

definidos como 0. Mas os únicos pontos na imagem que não excedem 0 são os pontos que são 0, ou

seja, os da primeira coluna.

Problema 10.39

A divisão da região é mostrada na Figura 10.39 (a). A árvore quaternária correspondente é mostrada

na Figura 10.39 (b).

Problema 10.41

(a) Os elementos de T [n] são as coordenadas dos pontos na imagem abaixo do plano g (x, y) = n, onde

n é um inteiro que representa uma etapa dada na execução do algoritmo. Como n nunca diminui, o

conjunto de elementos em T [n - 1] é um subconjunto dos elementos em T [n]. Além disso,

observamos que todos os pontos abaixo do plano Gg(x, y) = n - 1 estão também abaixo do plano g (x,

y) = n, então os elementos de T [n] nunca são substituídos. Da mesma forma, Cn(Mi) é formado pela

interseção de C (Mi) e T [n], onde C (Mi) (cujos elementos nunca mudam) é o conjunto de coordenadas

de todos os pontos da bacia de captação associados ao mínimo regional Mi. Como os elementos de C

(Mi) nunca mudam, e os elementos de T[n] nunca são substituídos, decorre que os elementos em Cn

(Mi) também nunca serão substituídos. Além disso, vemos que Cn-1 (Mi) ⊆ Cn (Mi).

115

Problema 10.43

A primeira etapa da aplicação do algoritmo de segmentação de bacias hidrográficas é construir uma

barragem de altura max + 1 para evitar que a ascensão da água escape das extremidades da função,

como mostrado na Figura 10.43 (b). Para uma função imagem construiríamos uma caixa de uma altura

max + 1 em torno de sua margem. O algoritmo é inicializado estabelecendo C [1] = T [1]. Neste caso,

T [1] = {g (2)}, como mostrado na Figura 10.43 (c) (observe o nível da água). Há apenas um

componente conectado neste caso: Q [1] = {q1}= {g (2)}.

Em seguida, façamos n = 2 e, como mostrado na Figura 10.43 (d), T [2] = {g (2), g (14)} e Q [2] =

{q1, q2}, onde, por razões de clareza, componentes conectados diferentes são separados por ponto e

vírgula. Começamos a construção de C [2], considerando cada componente conectado em Q

[2]. Quando q = q1, o termo q ∩ C [1] é igual a {g (2)}, então a condição 2 é satisfeita e, portanto, C

[2] = {g (2)}. Quando q = q2, q ∩ C [1] = Ø (conjunto vazio), então a condição 1 é satisfeita e

incorporamos q em C [2], que então se torna C [2] = {g (2); g (14)} onde, como acima, componentes

diferentes conectados são separados por ponto e vírgula.

Quando n = 3 [Figura 10.43(e)], T [3] = {2,3,10,11,13,14} eQ [3] = {q1, q2, q3} = {2,3;10,11;13,14},

onde, para simplificar a notação fazemos k indicar g (k). Procedendo como acima, q1 ∩ C [2] = {2}

satisfaz a condição 2, então q1 está incorporado no novo conjunto para produzir C [3] = {2,3;14}. Da

mesma forma, q2 ∩ C [2] = Ø satisfaz a condição 1 e C [3] = {2,3;10,11;14}. Finalmente, q3 ∩ C [2] =

{14} satisfaz a condição 2 e C [3] = {2,3;10,11;13,14}. É fácil verificar que C [4] = [3] =

{2,3;10,11;13,14}.

116

Quando n = 5 [Figura 10.43 (f)], temos,T [5] = {2,3,5,6,10,11,12,13,14} e Q [5] = {q1;q2;q3} =

{2,3;5,6; 10,11,12,13,14} (note a fusão de dois componentes conectados anteriormente distintos). É

fácil verificar que q1 ∩ C [4] satisfaz a condição 2 e que q2 ∩ C [4], satisfaz a condição 1.

Prosseguindo com estes dois componentes conectados exatamente como descrito acima resulta C [5] =

{2, 3; 5, 6; 10,11;13,14} até este ponto.

Tudo fica mais interessante ao considerar q3. Agora, q3 ∩ C [4] = {10,11;13,14}, que, por conter dois

componentes conectados de C[4], satisfaz a condição 3. Como mencionado anteriormente, esta é uma

indicação de que água de duas bacias diferentes se fundiram e uma barragem deverá ser construída

para evitar esta condição. Construir barragens não é nada além do que separar q3 em dois componentes

conectados originais. Neste caso particular, isso é feito pela barragem mostrada na Figura 10.43(g),

então agora q3 = {q31;q32} = {10.11;13,14}. Então, q31 ∩ C [4] e q32 ∩ C [4], cada uma satisfaz a

condição 2 e temos o resultado final para n = 5, C[5] = {2,3;5,6;10,11;13,14}.

Continuar desta maneira recém explicada produz o resultado da segmentação final mostrado na

Figura 10.43(h), onde as bordas são visíveis (de cima), logo acima da linha de água. A última etapa de

pós-processamento eliminaria as paredes da barragem exterior para produzir as bordas interiores de

interesse.

Problema 10.45

(a) Verdadeiro, supondo que o limiar não seja maior do que todas as diferenças encontradas à medida

que o objeto se move. A maneira mais fácil de verificar isso é desenhar uma simples imagem de

referência, tal como o retângulo branco sobre um fundo preto. Deixe que este retângulo seja o objeto

que se move. Como o valor absoluto da imagem ADI em qualquer local, é a diferença absoluta entre a

referência e a nova imagem. É fácil verificar que como o objeto da área de entrada que é o fundo na

imagem de referência, a diferença absoluta mudará de zero para não zero na nova área ocupada pelo

objeto em movimento. Assim, enquanto o objeto se move, a dimensão da ADI absoluta crescer.

117

Problema 10.47

Lembre-se de que a velocidade é um vetor cuja magnitude é a rapidez. A função é um registro

unidimensional da posição do objeto em movimento como função do tempo (frames por segundo). O

valor da velocidade (rapidez) é determinado extraindo a primeira derivada dessa função. Para

determinar se a velocidade é positiva ou negativa em um momento específico, n, calculamos a

aceleração instantânea (taxa de variação de velocidade) naquele ponto, ou seja, computamos a segunda

derivada de . Visto de outra forma, vamos determinar a direção calculando a derivada da derivada

de gx. Mas, a derivada em um ponto é simplesmente a tangente naquele ponto. Se a tangente tiver

inclinação positiva, a velocidade é positiva, caso contrário é negativa ou zero. Devido a ser uma

quantidade complexa, sua tangente é dada pela razão de sua parte imaginária em relação à sua parte

real. Esse índice é positivo quando S1x e S2X têm o mesmo sinal, comocomeçamos a provar.

Problema 10.49

(a) Dado que 10% da área da imagem na direção horizontal é ocupada por uma bala de 2,5 cm de

comprimento, como o dispositivo de imagem é quadrado (256 × 256 elementos), a câmera olha para

uma área de 25 cm × 25 cm, desde que não tenha distorções ópticas. Assim, a distância entre os pixels

é 25/256 = 0,098 cm/pixel. A velocidade máxima da bala é 1000 m/s. = 100,000 cm/s. Nessa

velocidade, a bala irá percorrer 100 000/0,98 = 1,02 × 106 pixels/s. É necessário que a bala não

percorra mais que um pixel durante a exposição. Ou seja, (1,02 × 106 pixels/s) × K s ≤ 1 pixel. Assim,

K ≤ 9,8 × 10-7 segundos.

118

Capítulo 11


Problema 11.1

(a) A chave para este problema é reconhecer que o valor de cada elemento em um código de cadeia é

relativo ao valor de seu antecessor. O código para um limite traçado de forma consistente (por

exemplo, no sentido horário) é um conjunto circular único de números. Começar a partir de locais

diferentes nesse conjunto não muda a estrutura da sequência circular. Selecionar o menor inteiro como

ponto de partida simplesmente identifica o mesmo ponto na sequência. Mesmo se o ponto de partida

não for único, esse método ainda daria uma sequência única. Por exemplo, a sequência 101010 tem

três possíveis pontos de partida, mas todos eles produzem o mesmo menor inteiro 010101.

Problema 11.3

(a) A abordagem rubber-band (do elástico) força o polígono a ter vértices em cada inflexão da parede

celular. Ou seja, os locais dos vértices são fixados pela estrutura das paredes internas e externas. Isso

produz o polígono de perímetro mínimo para qualquer configuração dada da parede devido aos

vértices serem unidos por linhas retas.

Problema 11.4

(a) Quando o vértice B é espelhado, coincide com os dois vértices brancos dos cantos, então se torna

colinear com eles. O algoritmo ignora vértices colineares, então não se detecta o pequeno recuo.

(b) Quando o recuo é mais profundo do que um pixel (mas ainda 1 pixel amplo), temos a situação

mostrada na Figura 11.4. Note que o vértice B cruza após o espelhamento.

119

Referindo-se à figura do fundo, quando o algoritmo alcançar o vértice 2, o vértice 1 será identificado

como o vértice de MPP, ou seja, de polígono de perímetro máximo, de modo que o algoritmo será

inicializado nessa etapa. Devido à inicialização, o vértice 2 é alcançado novamente. Será colinear com

WC e VL, assim BC será fixado no local do vértice 2. Quando o vértice 3 for alcançado, sgn(VL, WC, V3)

será 0, então BC será fixado no vértice 3. Quando o vértice 4 for alcançado, sgn(1, 3, 4) será negativo,

de modo que VL será fixado no vértice 3 e o algoritmo será reinicializado. O vértice 2 nunca se tornará

um vértice de MPP pois nunca será alcançado novamente. O próximo vértice de MPP a ser alcançado

será o 4. Por isso, recuos de 2 pixels ou superiores em profundidade e 1 pixel de largura serão

representados pela sequência 1-3-4 na segunda figura. Assim, o algoritmo resolve o cruzamento

causado pelo espelhamento dos dois vértices B, mantendo apenas um vértice. Esse é um resultado

genérico para 1 pixel de largura e 2 pixels (ou mais) intrusões de profundidade.

Problema 11.5

(a) O polígono resultante deverá conter todos os pixels de fronteira.

Problema 11.6

(a) A solução é mostrada na Figura 11.6 (b).

120

Problema 11.7

(a) Da Figura 11.7(a), vemos que a distância desde a origem até o triângulo é dada por

121

onde D0 é a distância perpendicular da origem para um dos lados do triângulo, e D = D0/ cos (60◦) =

2D0. Uma vez dadas as coordenadas dos vértices do triângulo, a determinação da equação de cada

linha reta é um problema simples, e D0 (que é o mesmo para as três linhas retas) decorre da geometria

elementar.

Problema 11.8

As soluções são mostradas na Figura 11.8.

Problema 11.9

(a) No primeiro caso, N(p) = 5, S(p) = 1, p2 • p4 • p6 = 0, e p4 • p6 • p8 = 0, então a Equação 11.1-4

foi satisfeita e p é marcado para exclusão. No segundo caso, N(p) = 1, então a Equação 11.1-4 foi

violada e p ficou inalterado. No terceiro caso p2 • p4 • p6 = 1 e p4 • p6 • p8 = 1, então as condições (c) e

(d) da equação 11.1-4 foram violadas e p ficou inalterado. No quarto caso, S(p) = 2, então a condição

(b) foi violada e p ficou inalterado.

Problema 11.10

(a) O resultado é mostrado na Figura 11.10 (b).

Problema 11.11

(a) O número de símbolos na primeira diferença é igual ao número de segmentos primitivos no limite,

então a ordem da forma é 12.

Problema 11.14

A média é suficiente.

122

Problema 11.16

Este problema pode ser resolvido por meio de dois descritores: orifícios e deficiência convexa (veja a

Seção 9.5.4 sobre o casco convexo e a deficiência convexa de um conjunto). O processo de decisão

pode ser resumido na forma de uma simples decisão, como segue: se o caracter tiver dois orifícios, é

um 8. Se tiver um orifício, é um 0 ou um 9. Caso contrário, é 1 ou X. Para diferenciar entre 0 e 9

calculamos a deficiência convexa. A presença de uma deficiência significante (digamos, possuir uma

área superior a 20% da área de um retângulo que envolve o caracter) significa um 9, caso contrário

podemos classificar o caracter como 0. Seguimos um procedimento semelhante para separar 1 de x. A

presença de uma deficiência convexa com quatro componentes cujos centroides estão localizados

aproximadamente nos quadrantes norte, leste, oeste e leste do caracter, indica que ele é um X. Caso

contrário, dizemos que o caracter é 1. Essa é a abordagem básica. A implementação desta técnica em

um ambiente real de reconhecimento de caracteres tem que levar em conta outros fatores tais como

pequenos componentes múltiplos na deficiência convexa devido ao ruído, diferenças de orientação,

loops abertos, e assim por diante. No entanto, o material nos capítulos 3, 9 e 11 fornece uma base

sólida para formulação de soluções.

Problema 11.17(b) Normalize a matriz pela divisão de cada componente por 19 600 + 200 + 20 000

= 39 800:

assim p11 = 0,4925, p12 = 0,005, p21 = 0, e p22 = 0,5025.

Problema 11.19

(a) A imagem será

123

Seja z1 = 0 e z2 = 1, como existem apenas dois níveis de intensidade, a matriz G é de ordem 2 × 2. O

elemento G11 é o número de pixels com valor 0 localizado um pixel para a direita de um 0. Por

inspeção, G11 = 0. Da mesma forma, G12 = 10, G21 = 10, e G22 = 0. O número total de pixels que

satisfaz o predicado P é 20, portanto, a matriz de co-ocorrência normalizada é

Problema 11.21

O erro quadrático médio, dado pela Equação 11.4-12, é a soma dos autovalores cujos autovetores

correspondentes não são utilizados na transformação. Neste caso específico, os quatro autovalores

menores são aplicáveis (veja a Tabela 11.6), então é a média do erro ao quadrado

O erro máximo ocorre quando K = 0 na Equação 11.4-12, que depois é a soma de todos os autovalores,

ou 15 039 neste caso. Assim, o erro inerente à utilização de apenas dois autovetores correspondentes

aos maiores autovalores é de apenas 11,5% do erro total possível.

Problema 11.23

Quando o limite é simétrico acerca dos eixos menor e maior e os dois eixos se cruzam no centroide da

fronteira.

Problema 11.25

Podemos calcular a medida da textura usando a expressão

onde é a variação de intensidade calculada em uma vizinhança de (x, y). O tamanho da

vizinhança deve ser suficientemente grande para conter amostras bastantes para ter uma estimativa

124

estável da média e da variância. Vizinhanças de tamanho 7 × 7 ou 9 × 9 são, de modo geral,

apropriadas para casos de baixo ruído tal como este.

Devido à variância da bolacha (wafer) normal ser de 400, podemos obter um valor normal para R(x, y)

usando na equação acima. Uma região anormal terá uma variação de cerca de (50)² = 2

500 ou superior, gerando um maior valor de R(x, y). O procedimento então é calcular R(x, y) em cada

ponto (x, y) e rotular esse ponto como 0 se ele for normal e 1, se não for. Ao final deste procedimento

olhamos para os clusters de 1’s utilizando, por exemplo, componentes conectados (veja a Seção 9.5.3

sobre cálculo de componentes conectados). Se a área (número de pixels) de qualquer componente

conectado exceder 400 pixels, podemos classificar a amostra como defeituosa.

125

Capítulo 12


Problema 12.2

Da definição de distância euclidiana,

Como Dj (x) é não-negativo, escolher o menor Dj(x) é o mesmo que escolher o menor D2

j(x), onde

Notamos que o termo xTx é independente de j (ou seja, é uma constante no que diz respeito a j em

D2

j(x), j = 1, 2,. . .). Assim, a escolha do mínimo de D2

j(x) é equivalente a escolher máximo de

.

Problema 12.4

A solução é mostrada na Figura 12.4, onde os x são tratados como tensões e os y indicam

impedâncias. Da teoria básica de circuito, as correntes I são o produto das tensões vezes as

impedâncias. O sistema opera selecionando a corrente máxima, que corresponde à melhor opção e,

portanto,

126

realiza o reconhecimento de caracteres pela abordagem da distância mínima. A velocidade de resposta

é instantânea para todos os efeitos práticos.

Problema 12.6

A solução para a primeira parte deste problema é baseada na possibilidade de extração de

componentes conectados (veja os capítulos 2 e 11) e, em seguida, determinar se o componente

conectado é convexo ou não (ver Capítulo 11). Uma vez extraídos todos os componentes conectados,

realizamos uma verificação de convexidade em cada um deles, rejeitando os que não forem

convexos. Tudo o que resta depois disso é determinar se as bolhas restantes estão completas ou

incompletas. Para fazer isso, a região composta das linhas e colunas extremas da imagem é declarada

uma região de 1's. Em seguida, se o pixel a pixel AND dessa região com uma bolha particular resultar

pelo menos uma vez em um 1, decorre que a fronteira real toca essa bolha, e a bolha é chamada de

incompleta. Quando apenas um único pixel em uma bolha produz um AND de 1, temos um resultado

marginal em que apenas um pixel em uma bolha toca a fronteira. Podemos declarar arbitrariamente

que a bolha esteja incompleta ou não. Do ponto de vista de implementação, é muito mais simples ter

um procedimento que chama a bolha de incompleta toda a vez que a operação AND produz um ou

mais resultados avaliados em 1.

Após rastrear as bolhas utilizando o método que acabamos de discutir, elas precisam ser classificadas

em uma das três classes dadas no enunciado do problema. Efetuamos a classificação baseados em

vetores da forma x = (x1, x2)T, onde x1 e x2 são, respectivamente, os comprimentos do maior e menor

eixo de uma bolha elíptica, o único tipo restante após triagem. Alternativamente, poderíamos

127

usar os eixos próprios para a mesma finalidade. (Veja a Seção 11.2.1 sobre como obter os maiores

eixos ou o fim da Seção 11.4 sobre os eixos próprios.) O vetor médio de cada classe necessária para

implementar um classificador de distância mínima é dado no enunciado do problema como a extensão

média de cada um dos dois eixos para cada classe de bolha. Se não fossem dados, poderiam ser

obtidos pela mensuração do comprimento dos eixos para elipses completas que tenham sido

classificadas, a priori, como pertencentes a cada uma das três classes. O conjunto dado de elipses

constituiria assim um conjunto de treinamento e o aprendizado seria o cálculo dos eixos principais

para todas as elipses de uma classe então obter a média. Deveria ser repetido para cada classe. Um

diagrama de bloco delineando a solução para este problema é muito simples.

Problema 12.8

(a) Como no Problema 12.7,

Como as matrizes de covariância não são iguais, decorre da Equação 12.2-26, que

128

e

onde o termo não foi incluído porque nesse caso é o mesmo para ambas as funções de

decisão. A equação de fronteira de decisão de Bayes é

(b) A Figura 12.8 mostra um gráfico da fronteira.

Problema 12.10

A partir da teoria de probabilidade básica,

Para qualquer padrão que pertença à classe . Por isso,

Substituindo a fórmula nesta equação, resulta

129

Como o argumento do somatório é positivo, p(c) será maximizado maximizando p(x/ωj)p(ωj) para

cada j. Ou seja, se para cada x calcularmos p(x/ωj)p(ωj) para j = 1, 2, ..., W, e cada vez usarmos o

maior valor como base para selecionar a classe da qual veio x, então p(c) será maximizado por este

procedimento. Uma vez que p(e) = 1-p (c), a probabilidade de erro será minimizada nesse

procedimento.

Problema 12.12

Começamos extraindo as derivadas parciais de J com relação a w:

onde, por definição, sgn (wTy) = 1 se w

Ty > 0, e, caso contrário, sgn (w

Ty) = -1. Substituindo a

derivada parcial na expressão geral dada no enunciado do problema, resulta

onde y(k) é o padrão de treinamento que está sendo considerado na k-ésima etapa

iterativa. Substituindo a definição da função sgn nesse resultado, produz

onde c> 0 e w(1) é arbitrário. Esta expressão está de acordo com a formulação dada no enunciado do

problema.

Problema 12.14

A função única de decisão que implementa o classificador de distância mínima para duas classes é da

forma

130

Assim, para um vetor padrão particular x, quando dij(x)> 0, x será atribuído à classe e, quando

dij(x)< 0, x será atribuído à classe . Os valores de x para os quais dij(x)=0 estão no limite

(hiperplano) que separa as duas classes. Fazendo w = (mi - mj) e ,

podemos expressar a função de decisão acima na forma

Essa é reconhecida como uma função de decisão linear com n dimensões, a qual é implementada por

uma rede neural de camada única com coeficientes

e

Problema 12.16

(a) Quando P(ωi) = P(ωj) e C = I.

(b) Não. O classificador de distância mínima implementa uma função de decisão que é a mediatriz da

reta que une as duas médias. Se a densidade de probabilidade for conhecida, é garantido que o

classificador de Bayes implemente uma ótima função de decisão no sentido da perda média mínima. A

regra delta generalizada para a formação de uma rede neural não diz nada sobre esses dois critérios, de

modo que não se pode esperar produzir funções de decisão nos problemas 12.14 ou 12.15.

Problema 12.18

Tudo que é necessário é criar vetores de treinamento da forma x = (x1,x2)T para cada classe, onde x1 é o

comprimento do maior eixo e x2 é o comprimento do menor eixo das bolhas contidas no conjunto de

treinamento. Esses vetores seriam então utilizados para treinar o uso de uma rede neural, por exemplo,

a regra delta generalizada (devido aos padrões estarem em 2D, é útil recordar aos alunos que a rede

neural pode ser concebida por meio de inspeção no sentido de que as classes poderiam ser

representadas graficamente, obtida a fronteira de decisão de complexidade mínima e, em seguida, seus

coeficientes usados para especificar a rede neural. Neste caso, as classes estariam muito distantes com

131

relação à propagação, então é mais provável que uma rede de camada única implementando uma

função de decisão linear teria o mesmo efeito.)

Problema 12.20

A primeira parte da Equação 12.3-3 foi comprovada observando que o grau de semelhança, k, é não

negativo, então D(A, B) = 1/k ≥ 0. Da mesma forma, a segunda parte decorre do fato que K é infinito

quando (e somente quando) as formas forem idênticas.

Para comprovar a terceira parte, usamos a definição de D para escrever

como

ou, equivalentemente,

onde kij é o grau de semelhança entre a forma i e a forma j. Lembre-se da definição que k é a maior

ordem para a qual os números forma da forma i e forma j ainda coincidem. Como ilustra a Figura

12.24(b), esse é o ponto no qual a imagem "separa" à medida que avançamos mais abaixo da árvore

(note que k aumenta

132

à medida que avançamos mais abaixo na árvore). Provamos que kac ≥ min[kab, kbc] por

contradição. Para que kac ≤ min [kab, kbc] se mantenha, a forma A tem que se separar da forma C antes

(1) a forma A se separa da forma B, e (2), antes a forma B se separa da forma C, caso contrário kab ≤

kac ou kbc ≤ kac, que automaticamente viola a condição kac < min [kab, kbc]. Mas, se (1) tem que se

manter, então a Figura P12.20 mostra o único caminho em que A pode se separar de C antes de se

separar de B. Isso, no entanto, viola (2), o que significa que a condição kac < min [kab, kbc] é violada

(também podemos ver isso na figura observando que kac = kbc, que desde que kab < kbc, viola a

condição). Usamos um argumento semelhante para mostrar que se (2) se mantém, então (1) é

violado. Assim, concluímos que é impossível que a condição kac < min [kab, kbc] se mantenha,

provando assim que kac ≥ min[kab, kbc] ou, equivalentemente, que a D(A, C) ≤ max [D(A, B), D(B, C)].

133

respostas dos exercícios selecionados

Documents