respostas dos exercícios selecionados
TRANSCRIPT
Processamento digital de imagem3ª edição
Respostas dos exercícios selecionados Rafael C. Gonzalez Richard E. Woods Prentice Hall Upper Saddle River, NJ 07458 www.imageprocessingplace.com Copyright © 1992-2008 R. C. Gonzalez and R. E. Woods
Capítulo 1
Introdução
1.1 Sobre este manual
Este manual condensado contém soluções detalhadas de todos os problemas assinalados com uma
estrela em Processamento digital de imagem, 3ª edição.
1.2 Projetos
O instrutor pode solicitar que você prepare projetos computacionais nos seguintes formatos:
Página 1: folha de rosto.
• Título do projeto
• Número do projeto
• Número do curso
• Nome do aluno
• Data de entrega
• Data da solicitação
• Resumo (não exceder uma ou duas páginas)
Página 2: uma ou duas páginas (máximo) de discussão técnica.
Página 3 (ou 4): discussão dos resultados. Uma ou duas páginas (no máximo).
Resultados: resultados das imagens (impressas em geral em uma impressora a laser ou a jato de
tinta). Todas elasdevem conter o número e o título referidos na discussão dos resultados.
Anexo: As listagens do programa, com foco em qualquer código original elaborado pelo aluno. Para
resumir, funções e rotinas fornecidas para o aluno são chamadas pelo nome, mas sem o código
incluído.
1
Layout: Todo o relatório deve estar em folhas de tamanho padrão (por exemplo, tamanho da letra nos
EUA ou A4 na Europa), grampeadas com três ou mais grampos na margem esquerda para formar um
folheto, ou ligadas usando produto padrão de plástico transparente.
1.3 Sobre o site livro
O site da companhia: <www.prenhall.com/gonzalezwoods>, ou o site espelho:
<www.imageprocessingplace.com>, é um valoroso auxílio de ensino, pois inclui material visto
anteriormente em sala de aula. Em particular, a revisão do material sobre probabilidade, matrizes,
vetores e sistemas lineares foi preparado usando a mesma notação que no livro, e está focada em áreas
que são diretamente relevantes para as discussões do texto. Isso permite ao instrutor atribuir o
material como leitura independente, e não gastar mais do que o total de um período letivo revendo
esses assuntos. Outra característica principal é o conjunto de soluções para os problemas marcados
com uma estrela no livro.
Essas soluções são bastante detalhadas e foram preparadas com a ideia de ser utilizadas como apoio
pedagógico. A disponibilidade on-line de projetos e imagens digital libera o instrutor de preparar
experimentos, dados e apostilas para os alunos. O fato de a maioria das imagens do livro está
disponível para ser baixada aumenta ainda mais o valor do site como recurso didático.
2
Capítulo 2
Soluções de problemas
Problema 2.1
O diâmetro, x, da imagem de retina correspondente ao ponto é obtido a partir de triângulos
semelhantes, como mostrado na Figura 2.1. Isto é,
o que dá x = 0,085 d. A partir da discussão na Seção 2.1.1, e tomando alguma liberdade de
interpretação, podemos pensar que a fóvea seja uma matriz sensora quadrada, tendo uma ordem de 337
mil elementos, que se traduz em uma matriz de tamanho de 580 × 580 elementos. Assumindo um
espaçamento igual entre os elementos, isto dá 580 elementos e 579 espaços em uma linha de 1,5
milímetros de comprimento. O tamanho de cada elemento e de cada espaço é, então, s = [(1,5 mm) /
1159] = 1,3 × 610 m. Se o tamanho (sobre a fóvea) do ponto digitalizado for menor que o tamanho de
um elemento de resolução única, assume-se que o ponto será invisível a olho nu. Em outras palavras, o
olho não irá detectar um ponto se o seu diâmetro, d, for tal que 0,085 (d) <1,3 × 610 m, ou d < 15,3 ×
610 m.
Problema 2.3
A solução é
3
Problema 2.6
Uma solução possível é equipar uma câmera monocromática com um dispositivo mecânico que coloca
sequencialmente um filtro de passagem vermelho, verde e azul na frente da lente. A resposta mais
forte da câmera determina a cor. Se todas as três respostas forem aproximadamente iguais, o objeto
fica branco. Um sistema mais rápido é a utilização de três câmeras diferentes, cada uma equipada com
um filtro individual. A análise então seria baseada na apuração da resposta de cada câmera. Esse
sistema seria um pouco mais caro, mas mais rápido e confiável. Observe que as duas soluções
assumem que o campo de visão da câmera(s) é tal que fica completamente preenchido por uma cor
uniforme, ou seja, a câmera (s) fica (ão) focada em uma parte do veículo em que apenas a sua cor é
vista. Seria necessária uma análise mais aprofundada para isolar a região de cor uniforme, que é o
único ponto de interesse para resolver este problema.
Problema 2.9
(a) O montante total dos dados (incluindo o bit de início e o de parada) numa imagem de 8 bits, 1024
× 1024, é (1024)² × 8 + 2 bits. O tempo total necessário para transmitir esta imagem através de um link
de transmissão é de 56 K (1024)² × (8 + 2) / 56000 = 187,25 s. ou cerca de 3,1 min.
(b) Em 3 000 K o tempo cai para cerca de 3,5 s.
Problema 2.11
Sendo p e q, conforme mostrado na Figura 2.11. Então, (a) S1 e S2 não são -4; porque q não está no
conjunto N4 (p); (b) S1 e S2 são -8; porque q está no conjunto N8 (p), (c) S1 e S2 são -m, porque (i) q
está em ND (p), e (ii) o conjunto N4 (p) ∩ N4 (q) está vazio.
4
Problema 2.12
A solução deste problema consiste em definir todas as formas possíveis de vizinhança para ir do
segmento diagonal para um segmento correspondente -4 como ilustra a Figura 2.12. O algoritmo
simplesmente procura a combinação apropriada cada vez que um segmento diagonal é encontrado na
fronteira.
Problema 2.15
(a) Quando V = {0,1}, o traçado -4 não existe entre p e q porque é impossível ir de p a q, passando ao
longo de pontos que são adjacentes -4 e que também têm valores de V. A Figura 2.15 (a) mostra essa
condição, não é possível alcançar q. O menor traçado -8 é mostrado na Figura 2.15; (b) seu
comprimento é de 4. O comprimento do traçado -m mais curto (indicado pelo tracejado) é 5. Ambos os
traçados mais curtos são únicos neste caso.
5
Problema 2.16
(a) A Figura 2.16 mostra o menor traçado -4 entre um ponto p com coordenadas (x, y) e um ponto q
com coordenadas (s, t), onde a hipótese é que todos os pontos ao longo do traçado são de V. O
comprimento dos segmentos do traçado é | X - s | + |y - t|, respectivamente. O comprimento do traçado
total é | x - s | + |y - t|, o que reconhecemos como a definição da distância 4D , como dado na Equação
2.5-2. (Lembre-se que essa distância é independente de quaisquer traçados que possam existir entre os
pontos.)
Naturalmente, à distância 4D é igual ao comprimento do traçado -4 mais curto quando o comprimento
do traçado é | x - s | + |y - t|. Isso ocorre sempre que podemos ir de p para q por meio de um traçado,
cujos elementos (1) são de V, e (2) estão dispostos de tal forma que possamos percorrer o traçado de p
para q alternando em pelo menos duas direções (por exemplo, para a direita e para cima).
Problema 2.18
Com referência à Equação 2. 6 - 1, considere que H indica o operador de soma, e 1S e 2S indicam duas
áreas diferentes de subimagem do mesmo tamanho, e 1S + 2S indicam a soma pixel a pixel
correspondente aos elementos em 1S e 2S, como explicado na Seção 2.6.1. Note que o tamanho da
vizinhança (isto é, o número de pixels) não é alterado por essa soma pixel a pixel. O operador H
computa a soma de valores de pixels em uma determinada vizinhança. Então, H (1aS + 2bS) significa:
(1) multiplique os pixels em cada uma das áreas de subimagem pelas constantes mostradas; (2)
adicione
os valores pixel a pixel de a1S e b2S (que produzem uma única área de subimagem), e (3) calcule a
soma dos valores de todos os pixels nesta única área de subimagem. Deixe a1p e b2p indicarem dois
pixels arbitrários (mais correspondentes) a1S + b2S. Então podemos escrever
6
que, segundo a Equação 2.6-1, indica que H é um operador linear.
Problema 2.20
Da Equação 2.6-5, em qualquer ponto (x, y),
Então
Mas todos os fi são a mesma imagem, assim E {fi} = f. Além disso, é dado que o ruído tem média
zero, então E {ηi} = 0. Assim, conclui-se que E {g} = f, o que comprova a validade da Equação 2.6-6.
Para provar a validade da Equação 2.6-7, considere a equação anterior novamente:
Sabe-se da teoria de variáveis aleatórias que a variância da soma das variáveis aleatórias é a soma das
variâncias dessas variáveis não relacionadas (Papoulis 1991). Como os elementos de f são constantes e
os de ηi são descorrelacionados, então
O primeiro termo do lado direito é 0 porque os elementos de f são constantes. Os vários σ2η são
apenas amostras de ruído, que tem a variância σ2η. Assim, σ2η = σ2η,e temos
que comprova a validade da Equação 2.6-7.
7
Problema 2.22
Façamos com que g (x, y) indique a imagem de ouro, e f (x, y) indique qualquer imagem de entrada
adquirida durante operação de rotina do sistema. A detecção de alteração por meio de subtração
baseia-se no cálculo da diferença simples d (x, y) = g(x, y) – f (x, y). A imagem resultante, d (x, y),
pode ser usada de duas maneiras fundamentais para a detecção de alterações. Uma maneira é a análise
pixel a pixel. Neste caso, dizemos que f (x, y) está "suficientemente perto" da imagem de ouro, se
todos os pixels em d (x, y) estiverem em determinado limiar da banda [Tmin, Tmax], em que Tmin é
negativo e Tmax é positivo. Normalmente, o mesmo valor do limiar é usado tanto para diferenças
positivas e negativas, assim temos uma banda [-T, T], na qual todos os pixels de d (x, y) devem
aparecer em ordem para que f (x, y) seja declarado aceitável. A segunda abordagem principal é
simplesmente a soma de todos os pixels d (x, y)| e a comparação da soma contra um limiar Q. Note que
se deve usar o valor absoluto para evitar erros de eliminação. Como este é um teste muito incipiente,
iremos nos concentrar na primeira abordagem.
Há três fatores fundamentais que precisam de um controle rígido para que a inspeção baseada em
diferença funcione: (1) registro adequado; (2) iluminação controlada; e (3) níveis de ruído baixos o
suficiente para que os valores das diferenças não sejam muito afetados pelas variações devido ao
ruído. A primeira condição chama a atenção basicamente para a exigência de que as comparações
sejam feitas entre pixels correspondentes. Duas imagens podem ser idênticas, mas se em relação uma à
outra estiverem deslocadas,
não faz sentido comparar as diferenças entre elas. Muitas vezes, são fabricadas dentro do produto
marcações especiais para o alinhamento mecânico ou com base na imagem.
A iluminação controlada (note que a ‘iluminação’ não se limita à luz visível) é importante obviamente,
porque alterações na iluminação pode afetar drasticamente os valores em uma imagem de
8
diferença. Uma abordagem frequentemente utilizada em conjunto com controle de iluminação é a de
escala de intensidade com base em condições reais. Por exemplo, os produtos poderiam ter um ou
mais patches pequenos de uma cor rigidamente controlada, e a intensidade (e talvez até mesmo a cor)
de cada pixel em toda a imagem seria modificada com base na intensidade real versus a esperada e/ou
a cor dos patches na imagem que está sendo processada.
Finalmente, o conteúdo de ruído de uma imagem de diferença tem que ser baixo o suficiente para que
não afete materialmente as comparações entre as imagens de ouro e de entrada. Há necessidade de
muito esforço para reduzir os efeitos do ruído. Outra abordagem (por vezes complementar) é a
implementação de técnicas de processamento de imagem (por exemplo, image averaging) para reduzir
o ruído.
Obviamente que há um número de variações condicionais do tema básico que acabamos de descrever.
Por exemplo, inteligência adicional pode ser implementada na forma de testes que são mais
sofisticados que comparações limiares pixel a pixel. A esse respeito, uma técnica usada com
frequência é subdividir a imagem de ouro em diferentes regiões e executar testes (geralmente mais que
um) distintos em cada uma das regiões, com base no conteúdo esperado dela.
Problema 2.23
(a) A resposta é mostrada na Figura 2.23.
Problema 2.26
Da Equação 2.6-27 e da definição de núcleos separados,
onde
Para um valor fixo de x, essa equação é reconhecida como a transformada 1-D ao longo de uma linha
de f(x, y). Fazendo x variar de 0 a M - 1 calculamos a matriz inteira T (x, v). Então, substituindo essa
matriz na última linha da equação anterior temos a transformada 1-D ao longo das colunas de T (x,
v). Em outras palavras, quando um núcleo é separável, podemos calcular a transformada 1-D ao longo
9
das linhas da imagem. Em seguida, calculamos a transformada 1-D ao longo das colunas deste
resultado intermediário para obter a transformada 2-D final, T (u, v). Obtemos o mesmo resultado
calculando a transformada 1-D ao longo das colunas de f (x, y), seguida pela transformada 1-D ao
longo das linhas de um resultado intermediário.
Esse resultado tem um papel importante no Capítulo 4, quando discutiremos a transformada de Fourier
2-D. Da Equação 2.6-33, a transformada de Fourier 2-D é dada por
É fácil verificar que o núcleo da transformada de Fourier é separável (Problema 2.25), assim, podemos
escrever esta equação como
onde
é a transformada de Fourier 1-D ao longo das linhas f(x, y), quando fazemos x = 0,1,. . . , M - 1.
10
Capítulo 3
Soluções de problemas
Problema 3.1
Dado que f indica a imagem original, primeiro subtraia o valor mínimo de f indicado por fmin de f para
fornecer uma função cujo valor mínimo seja 0:
Em seguida, divida 1g por seu valor máximo, para fornecer uma função no intervalo [0, 1], e
multiplique o resultado por L - 1 para fornecer uma função com valores no intervalo entre [0, L - 1]
Tenha em mente que fmin é uma escalar e f é uma imagem.
Problema 3.3
a
Problema 3.5
(a) O número de pixels que têm valores de nível de intensidade diferentes diminuiria, fazendo que
decresça a quantidade de componentes no histograma. Como o número de pixels não aumenta, a geral,
isso faria que a altura de alguns picos restantes do histograma aumentasse. Normalmente, uma menor
variabilidade nos valores do nível de intensidade irá diminuir o contraste.
11
Problema 3.6
Tudo que a equalização de histograma faz é remapear os componentes do histograma na escala de
intensidade. A obtenção de um histograma (plano) uniforme, em geral, requer que as intensidades de
pixel realmente sejam redistribuídas de forma que hajam grupos L de n/L pixels com a mesma
intensidade, onde L é o número de níveis de intensidade discreta permitidos e n = MN é o número total
de pixels na imagem de entrada. O método de equalização do histograma não tem provisões para esse
tipo de processo (artificial) de redistribuição de intensidade.
Problema 3.9
Estamos interessados em apenas um exemplo a fim de satisfazer o enunciado do problema. Considere
a função densidade de probabilidade na figura 3.9(a). Um gráfico da transformada T (r) na Equação 3.
3-4, utilizando essa função de densidade particular é mostrada na Figura 3.9(b). Devido a Pr (R) ser
uma função de densidade de probabilidade,sabemos a partir da discussão na Seção 3.3.1 que a
transformada T (r) satisfaz as condições (a) e (b) afirmadas naquela seção. No entanto, observamos da
Figura P3.9 (b) que a transformada inversa de r de volta a s não é um valor único, pois há um número
infinito de possíveis mapeamentos de s = (L - 1) / 2 de volta a r. É importante notar que a razão da
função de transformação inversa não retornar nem um único valor é a lacuna em pr (r) no intervalo [L /
4,3 L / 4].
12
Problema 3.10
(b) Se nenhum dos níveis de intensidade kr, k = 1,2,. . . , L - 1, é 0, então T (kr) será estritamente
monotônico. Isso implica em um mapeamento um para um nos dois sentidos, significando que as
transformadas direta e inversa serão sempre de valor único.
Problema 3.12
O valor do componente histograma correspondente ao nível de intensidade k-ésimo em uma
vizinhança é
para k = 1,2,. . . , K - 1, onde nk é o número de pixels que tem o mesmo nível de intensidade rk, n é o
número total de pixels de vizinhança, e K é o número total de níveis de intensidade possíveis. Suponha
que a vizinhança é movida um pixel para a direita (estamos assumindo vizinhanças retangulares). Isso
exclui a coluna mais à esquerda e introduz uma nova coluna à direita. O histograma atualizado torna-
se então
para k = 0,1,. . . , K - 1, onde NLK é o número de ocorrências de nível kr na coluna esquerda e NRK é a
quantidade similar na coluna da direita. A equação anterior pode ser escrita também como
para k = 0,1,. . . , K - 1. O mesmo conceito se aplica a outros modos de movimento de vizinhança:
13
para k = 0,1,. . . , K - 1, onde ka é o número de pixels com valor rk na área de vizinhança que foi
excluída pelo movimento, e bk é o número correspondente introduzido pelo movimento.
Problema 3.13
O objetivo deste simples problema é fazer o aluno pensar sobre os histogramas e chegar à conclusão
de que eles não carregam nenhuma informação sobre as propriedades espaciais das imagens. Assim, a
única vez que o histograma de imagens formado pelas operações indicadas no enunciado do problema
pode ser determinado em termos de histogramas originais é quando um (ambas) as imagens
é (são) constante(s). Em (d) temos o requisito adicional de que nenhum dos pixels de g (x, y) pode ser
0. Suponha, por conveniência, que os histogramas não estão normalizados, de modo que, por exemplo,
fh (rK) é o número de pixels em f (x, y) com intensidade de nível rk. Considere também que todos os
pixels em g (x, y) têm um valor constante c. Assume-se que os pixels das duas imagens são positivos.
Finalmente, façamos que uk indique os níveis de intesidade dos pixels das imagens formadas por
qualquer das operações aritméticas dadas no enunciado do problema. De acordo com o conjunto de
condições precedentes, os histogramas são determinados como segue:
(a) Obtemos o histograma hsum(uk) da soma fazendo uk = rk + c, e também hsum(uk) = hf (RK) para todos
os k. Em outras palavras, os valores (altura) dos componentes de hsum são os mesmos que os
componentes de hf, mas suas posições sobre o eixo de intensidade são deslocadas para a direita por um
montante c.
Problema 3.15
(a) Considere primeiro uma máscara 3 × 3. Como todos os coeficientes são 1 (estamos ignorando o
fator de escala 1/9), o efeito líquido da operação do filtro passa-baixa é a de adicionar todos os valores
de intensidade dos pixels sob a máscara. Inicialmente, leva oito adições para produzir a resposta da
máscara. No entanto, quando a máscara move de local um pixel para a direita, toma apenas uma nova
coluna. A nova resposta pode ser calculada como
14
Rnovo = Rvelho - C1 + C3
onde C1 é a soma dos pixels sob a primeira coluna da máscara antes de ter sido movida, e C3 é a soma
similar da coluna onde ficou após ter sido movida. Essa é a equação básica da caixa de filtro ou do
movimento médio. Para uma máscara 3 x 3 são necessárias duas adições para obter C3 (C1 já foi
calculado). A isso acrescentamos uma adição e uma subtração para obter Rnovo. Assim, é necessário
um total de quatro operações aritméticas para atualizar a resposta após o movimento. Esse é um
procedimento recursivo para mover da esquerda para a direita ao longo de uma linha da
imagem. Quando alcançamos o fim de uma linha, descemos um pixel (a natureza do cálculo é a
mesma) e continuamos a varredura na direção oposta.
Para uma máscara de tamanho n × n, (n - 1) são necessárias adições para obter C3, além de uma
simples adição e subtração para obter Rnovo, que dá um total de (N + 1) operações aritméticas após cada
movimento. A aplicação de força bruta exigiria n2 - 1 acréscimos após cada movimento.
Problema 3.16
(a) A chave para resolver este problema é reconhecer (1) que o resultado da convolução em qualquer
local (x, y) consiste em centrar a máscara naquele ponto e, em seguida, formar a soma dos produtos do
coeficiente da máscara com os pixels correspondentes na imagem; e (2) que a convolução da máscara
com a imagem inteira resulta em cada pixel da imagem ser acessado apenas uma vez por cada
elemento da máscara (ou seja, cada pixel é multiplicado uma vez por cada coeficiente da máscara).
Como a soma dos coeficientes da máscara é zero, significa que a soma dos produtos dos coeficientes
com o mesmo pixel também é zero. Executar este argumento para cada pixel da imagem leva à
conclusão de que a soma dos elementos da matriz de convolução também é zero.
15
Problema 3.18
(a) Há n² pontos em uma máscara de filtro mediana n × n. Como n é ímpar, o valor da mediana, ζ, é tal
que existem (n² - 1) / 2 pontos com valores inferiores ou iguais a ζ e o mesmo número com valores
iguais ou superiores a ζ. No entanto, devido à área A (número de pontos) no cluster ser menos da
metade de n², e A e n serem números inteiros, segue que A será sempre menor ou igual a (N² - 1) / 2.
Assim, mesmo em casos extremos, quando todos os pontos do cluster estão encerrados dentro da
máscara de filtro, não há pontos suficientes no cluster para qualquer um deles ser igual ao valor da
mediana (lembre-se, estamos assumindo que todos os pontos do cluster são mais claros ou mais
escuros do que os pontos de fundo). Portanto, se o ponto central na máscara for um ponto de cluster,
este será ajustado ao valor da mediana, que é uma sombra de fundo, e assim será ‘eliminado’ do
cluster. Naturalmente, essa conclusão se aplica ao caso menos extremo, quando o número de pontos
do cluster encerrado dentro da máscara for menor que o tamanho máximo do cluster.
Problema 3.19
(a) Classifique numericamente os valores de n². A mediana é
ζ = [(2n + 1) / 2] o maior valor .
(b) Uma vez que os valores tenham sido classificados, simplesmente excluímos os da extremidade
final da vizinhança e os inserimos na borda inicial, nos locais apropriados da matriz ordenada.
16
Problema 3.21
Da Figura 3.33 sabemos que as faixas verticais têm 5 pixels de largura, 100 pixels de altura, e a sua
separação é de 20 pixels. O fenômeno em questão está relacionado com a separação horizontal entre as
faixas; para que possamos simplificar o problema, considerando uma única linha de varredura das
faixas da imagem. A chave para responder a esta questão reside no fato de a distância (em pixels) entre
o início de um faixa e o início da próxima (por exemplo, à sua direita) ser de 25 pixels.
Considere a linha de varredura mostrada na Figura 3.21. Também foi mostrada uma seção transversal
de uma máscara de 25 × 25. A resposta da máscara é a média dos pixels que ela abrange. Observamos
que quando a máscara move um pixel para a direita, perde um valor da faixa vertical à esquerda, mas
obtém um valor idêntico à direita, então a reação não se altera. Na verdade, o número de pixels
pertencentes às faixas verticais e contidas dentro da máscara não alteram, independentemente de onde
a máscara estiver localizada (contanto que esteja dentro das faixas, e não perto das bordas do conjunto
de faixas).
O fato de o número de pixels sob a faixa não alterar se deve à separação peculiar entre elas e a
extensão das linhas em relação à extensão de 25 pixels da máscara. Esta resposta constante é a razão
de não serem vistos espaços em branco na imagem mostrada no enunciado do problema. Note que esta
resposta constante não acontece com máscaras de 23 × 23 ou 45 × 45 porque elas não estão
‘sincronizadas’ com a extensão das faixas e sua separação.
Problema 3.24
O operador Laplaciano é definido como
para as coordenadas não rotacionais, e como
17
para coordenadas rotacionais. É dado que
e
onde θ é o ângulo de rotação. Queremos mostrar que os lados direito das duas primeiras equações são
iguais. Começamos com
Calculando a derivada parcial da expressão novamente com relação a x’, resulta
Em seguida, calculamos
Calculando a derivada dessa expressão novamente com relação a y’, resulta
Adicionando as duas expressões para a segunda derivada, resulta
o que prova que o operador Laplaciano é independente da rotação.
18
Problema 3.25
A máscara Laplaciana com -4 no centro realiza uma operação proporcional para diferenciação nas
direções horizontal e vertical. Consideremos por um momento uma máscara ‘Laplaciana’ 3 × 3 com -2
no centro e 1s acima e abaixo do centro. Todos os outros elementos são 0. Essa máscara irá realizar a
diferenciação em apenas uma direção, e irá ignorar as transições de intensidade na direção ortogonal.
Uma imagem processada com tal máscara exibirá nitidez em uma só direção. Uma máscara Laplaciana
com -4 no centro e 1s nas direções vertical e horizontal, obviamente, produzirá uma imagem com
nitidez em ambas as direções e, em geral, aparecerão mais nítidas do que com a máscara anterior. Da
mesma forma, a máscara com -8 no centro e 1s nas direções horizontal, vertical e diagonal irá detectar
as mesmas variações de intensidade que a máscara com -4 no centro, mas, em acréscimo, também será
capaz de detectar variações ao longo das diagonais, geralmente produzindo resultados mais nítidos.
Problema 3.28
Considere a seguinte equação:
onde f (x, y) representa a média de f (x, y) em uma vizinhança predefinida centralizada em (x, y) e
incluindo o pixel central em suas quatro vizinhanças imediatas. Tratando as constantes da última linha
da equação acima como fatores de proporcionalidade, podemos escrever
19
O lado direito dessa equação é reconhecido nos recém-mencionados fatores de proporcionalidade que
devem ser da mesma forma que a definição da máscara desfocada dada nas equações 3. 6 - 8 e 3. 6 -
9. Assim, foi demonstrado que a subtração da Laplaciano de uma imagem é proporcional à máscara
desfocada.
Problema 3.33
A espessura da fronteira aumentará à medida que o tamanho da filtragem da vizinhança aumentar.
Escoraremos essa conclusão com um exemplo. Considere uma linha reta preta de um pixel de
espessura correndo verticalmente através de uma imagem branca. Se for usada uma vizinhança 3 × 3,
quaisquer vizinhanças cujos centros forem mais que dois pixels de distância da linha apresentarão
diferenças de valores zero e o pixel central será designado como pixel de região. Deixando o pixel
central na mesma localização, se aumentarmos o tamanho da vizinhança para, digamos, 5 × 5, a linha
será englobada e nem todas as diferenças serão zero, de modo que o pixel do centro será indicado
como ponto de fronteira, aumentando a espessura do contorno. Como aumenta o tamanho da
vizinhança, teriamos que estar cada vez mais longe da linha antes que o ponto central deixasse de ser
chamado de ponto de fronteira. Isto é, a espessura do limite detectado aumentaria à medida que o
tamanho da vizinhança aumentasse.
Problema 3.34
(a) Se a intensidade do pixel central de uma região de 3 × 3 for maior do que a intensidade de todos os
seus vizinhos, então reduza-a. Se a intensidade for menor do que a intensidade de todos os seus
vizinhos, então, aumente-a. De outra forma, não faça nada.
(b) Regras
20
Nota: Na regra 1, todas as diferenças positivas significam que a intensidade do pulso do ruído (Z5) é
menor que o de todos os 4-vizinhos. Então, desejamos tornar a saída z’5 mais positiva para que,
quando for adicionado à z5, aproxime o valor do pixel central aos valores de seus vizinhos. O inverso
será verdadeiro quando todas as diferenças forem negativas. Uma mistura de diferenças positivas e
negativas não demandam ação porque o pixel central não é um ponto claro. Neste caso, a correção
deve ser zero (lembre-se de que zero também não é um conjunto coerente).
21
Capítulo 4
Soluções de problemas
Problema 4.2
(a) Para provar periodicidade infinita em ambas as direções com o período 1/ΔT, temos que mostrar
que para da Equação 4.3-5,
onde a terceira linha resulta do fato de que k e n são inteiros e os limites da soma são simétricos a
partir da origem. A última etapa vem da Equação 4.3-5.
(b) Novamente, precisamos mostrar que para da
Equação 4.4-2,
22
onde a terceira linha resulta do fato de que porque k e n são inteiros (veja a
fórmula de Euler), e a última linha resulta da Equação 4.4-2.
Problema 4.3
Da definição da transformada de Fourier 1-D na Equação 4.2-16,
Da propriedade de translação na Tabela 4.3, sabemos que
e sabemos a partir do enunciado do problemaque a transformada de Fourier de uma constante [f (t) =
1] é um impulso. Assim,
Portanto, vemos que a integral mais à esquerda da última linha acima é a transformada de Fourier de
(1) ej2πnt
, que é δ (μ - n), e similarmente, a segunda integral é a transformada de (1) e-j2πnt
, ou δ (μ +
n). A combinação de todos os resultados produz
como desejado.
23
Problema 4.4
(a) O período é tal que 2πnt = 2π, ou t = 1 / n.
(b) A frequência é 1 dividido pelo período, ou n. A transformada contínua de Fourier de determinada
onda senoidal parece como na Figura 4.4 (a) (ver problema 4.3), e a transformada dos dados da
amostra (mostrando alguns períodos) tem a forma geral ilustrada na Figura 4.4 (b) (a caixa tracejada é
um filtro ideal que permite a reconstrução se a função seno tiver sido testada com o teorema de
amostragem a ser satisfeito).
(c) A taxa de amostragem de Nyquist é exatamente o dobro da frequência mais alta, ou 2n. Isso é,
(1/ΔT) = 2n, ou Dt = 1/2n. A colheita de amostras em t = ± Dt, ± 2ΔT... produziria a função testada sen
(2πnΔT), cujos valores são todoszero porque Dt = 1/2N e n é um inteiro. Em termos da Figura 4.4 (b),
vemos que quando ΔT = 1/2n todos os impulsos positivos e negativos coincidem, eliminando um ao
outro e dando um resultado zero para os dados amostrados.
Problema 4.5
A partir de Equação 4.2-20,
24
Sua transformada de Fourier dessa expressão é
O termo dentro dos colchetes é a transformada de Fourier de g (t- τ). Mas, sabemos pela propriedade
de translação (Tabela 4.3) que
Assim,
Isso prova que a multiplicação no domínio da frequência é igual à convolução no domínio espacial. A
prova de que a multiplicação no domínio espacial é igual à convolução no domínio espacial é obtida
de forma semelhante.
Problema 4.8
(b) Podemos resolver este problema como o acima, por substituição direta e usando
ortogonalidade. Substituindo a Equação 4.4-7 na 4.4-6 produz-se
25
onde a última etapa decorre da condição de ortogonalidade dada no enunciado do problema.
Substituindo a Equação 4.4-6 na 4.6-7, usando o mesmo procedimento, resulta em uma identidade
semelhante para f (x).
Problema 4.10
Com referência ao enunciado do teorema da convolução dado nas Equações 4.2-21 e 4.2-22,
precisamos mostrar que
e que
Da Equação 4.4-10 e da definição da DFT na Equação 4.4-6,
Prova-se de forma similar a outra metade do teorema da convolução discreta.
26
Problema 4.11
Com referência à Equação 4.2-20,
Problema 4.14
Da Equação 4.5-7,
Lembre-se que neste capítulo usamos (t, z) e (μ, ν) para variáveis contínuas, e (x, y) e (u, v) para
variáveis discretas.
Da Equação 2.6-2, a operação da transformada de Fourier é linear se
Substituindo na definição da transformada de Fourier produz-se
onde segue a segunda etapa da propriedade distributiva da integral.
Da mesma forma, para o caso discreto,
27
A linearidade da transformada inversa é demonstrada exatamente da mesma maneira.
Problema 4.16
(a) Da Equação. 4.5-15,
Problema 4.20
As seguintes, considerações são provas de algumas das propriedades na Tabela 4.1. As provas de
outras propriedades são dadas no Capítulo 4. Lembre-se de que quando nos referimos a uma função
como imaginária, sua parte real é zero. Usamos o termo complexo para indicar uma função cujas
partes real e imaginária não é zero. Testamos apenas a parte avançada dos pares da transformada de
Fourier. Foram usadas técnicas semelhantes para testar a parte inversa.
(a) Propriedade 2: Se f (x, y) for imaginário, f (x, y) ⇔ F* (-u,-v) = -F (u, v). Prova: Como f (x, y) é
imaginário, podemos expressá-lo como jg (x, y), onde g (x, y) é uma função real. Em seguida, a prova
é a seguinte:
28
(b) Propriedade 4: Se f (x, y) for imaginário, então R (u, v) é ímpar e I (u, v) é par.
Prova: F é complexo, por isso pode ser expresso como
Então, -F (u, v) = -R (u, v)- jI (u, v) e F* (-u,-v) R (-u,-v) jI (-u, -v). Mas, devido a f (x, y) ser
imaginário F* (-u, -v) = F (u, v) (ver Propriedade 2). Segue das duas outras equações anteriores que R
(u, v) =-R (-u, -v) (ou seja, R é impar) e I (u, v) = I (-u, -v) (I é par).
(d) Propriedade 7: Quando f (x, y) for complexo, f* (x, y) ⇔ F* (-u, -v). Prova:
29
(g) Propriedade 11: Se f (x, y) for imaginário e ímpar, então F (u, v) é real e ímpar, e vice-
versa. Prova: Se f (x, y) for imaginário, sabemos que a parte real de F (u, v) é ímpar e sua parte
imaginária é par. Se puder mostrar que a parte imaginária é zero, então teremos a prova para essa
propriedade. Como dito acima,
onde segue a última etapa da Equação 4.6-13.
Problema 4.21
Lembre-se de que a razão do alargamento foi estabelecer um buffer entre os períodos que estão
implícitos no DFT. Imagine a imagem à esquerda sendo duplicada muitas vezes infinitamente para
cobrir o plano xy. O resultado seria um tabuleiro de xadrez, com cada quadrado que está no tabuleiro
sendo a imagem (e as extensões pretas). Agora, imagine fazer a mesma coisa para a imagem à
direita. Os resultados seriam idênticos. Assim, qualquer forma de preenchimento realiza a
mesma separação entre as imagens, da forma que é desejado.
Problema 4.22
A menos que todas as fronteiras de uma imagem sejam negras, o preenchimento da imagem com zeros
introduz descontinuidades significativas em uma ou mais bordas da imagem. Podem ser bordas fortes
horizontais e verticais. Estas transições nítidas no domínio espacial introduzem componentes de alta
frequência ao longo dos eixos vertical e horizontal do espectro.
30
Problema 4.23
(a) Calcula-se as médias das duas imagens como segue:
e
onde a segunda etapa resulta do fato de que a imagem está preenchida com zeros. Assim, a proporção
dos valores médios é
Assim, notamos que a proporção aumenta como função de PQ, indicando que o valor médio da
imagem preenchida diminui como função de PQ. Isso já era esperado; o preenchimento de uma
imagem com zeros diminui seu valor médio.
Problema 4.25
(a) Da Equação 4.4-10 e a definição do 1-D DFT,
31
mas
onde segue a última etapa da Equação 4.6-4. Substituindo esse resultado na equação anterior, resulta
A outra parte do teorema da convolução ocorre de forma semelhante.
(c) A correlação é feita da mesma maneira, mas devido à diferença de sinal no argumento h o resultado
será um conjugado:
(d) Começaremos com uma variável:
A integração por partes tem a seguinte forma geral,
Façamos e . Então, ou
e
32
Então, segue que
Porque, por hipótese, f (± ∞) = 0 (veja a Tabela 4.3). Depois, considere a segunda derivada. Defina g
(z) = DF (z) / dz. Então,
onde G (ν) é a transformada de Fourier de g (z). Mas g (z) = df (z) / dz, então G (ν) = (j2πν) F (ν) e
Continuando dessa maneira, resultará na expressão
Se formos agora para 2-D e extrairmos a derivada de uma única variável, obteremos o mesmo
resultado que na expressão anterior, mas teremos que usar derivadas parciais para indicar para qual
variável aplicar a diferenciação e, em vez de F (μ), teremos F (μ, ν). Assim,
33
Defina , então
Mas G (μ, ν) é a transformada de g (t, z) = ∂n f (t, z) / ∂tn, que sabemos ser igual a (j2πμ)n F (μ,
ν). Portanto, estabelecemos que
Como a transformada de Fourier é única, sabemos que a transformada inversa do lado direito dessa
equação daria o esquerdo, então a equação constitui uma transformada de Fourier par (tenha em mente
que estamos lidando com variáveis contínuas).
Problema 4.26
(b) Como mostra a derivada anterior, o filtro laplaciano aplica-se a variáveis contínuas. Podemos gerar
um filtro para uso com a DFT apenas por amostragem desta função:
H (u, v) =- 4π² (u² + v²)
para u = 0,1,2,. . . , M - 1 e v = 0,1,2,. . . , N - 1. Ao trabalhar com transformadas centradas, a função de
filtro laplaciano no domínio da frequência é expressa como
H (u, v) = - 4π² ([u - M / 2]² + [v - N / 2]²).
34
Em resumo, temos o seguinte par de transformada de Fourier relacionada com de a Laplace nos
domínios espacial e de frequência:
∇ ² f (x, y) ⇔ - 4π² ([u - M / 2]² + [v - N / 2]²) F(u, v)
onde subentende-se que o filtro é uma versão da amostra de uma função contínua.
(c) O filtro laplaciano é isotrópico, assim sua simetria é muito mais próxima de uma máscara
laplaciana se tiver termos diagonais adicionais, que requer um -8 no centro para que a sua resposta seja
zero em áreas de intensidade constante.
Problema 4.27
(a) A média espacial (excluindo o termo centro) é
Da Propriedade 3 na Tabela 4.3,
onde
é a função de transferência do filtro no domínio da frequência.
(b) Para comprovar que este é um filtro passa-baixa, ajuda se a equação anterior for expressa na forma
das funções centrada familiares:
35
H (u, v) = 1 / 2 [cos (2π [u - M / 2]) / M) + cos (2π [v N / 2] / N)].
Para maior comodidade considere uma variável. Como u varia de 0 a M - 1, o valor de cos (2π [u - M /
2] / M) começa a -1, o pico é em 1 quando u = M / 2 (centro do filtro) e depois diminui para -1
novamente quando u = M. Assim, vemos que a amplitude do filtro diminui como uma função da
distância da origem do filtro centrado, que é a característica de um filtro passa-baixa. Um argumento
semelhante pode ser facilmente conduzido ao considerar as variáveis simultaneamente.
Problema 4.30
A resposta é não. A transformada de Fourier é um processo linear, enquanto o quadrado e as raízes
quadradas envolvidos no cálculo do gradiente são operações não lineares. A transformada de Fourier
pode ser usada para calcular as derivadas de diferenças (como no problema 4.28), mas os quadrados,
raiz quadrada, ou valores absolutos devem ser calculados diretamente no domínio espacial.
Problema 4.31
Iremos mostrar que
A explicação ficará mais clara se iniciarmos com uma variável. Mostraremos que, se
então,
36
Podemos expressar a integral na equação anterior como
Usando a identidade
na integral anterior, resulta
Em seguida, fazemos a mudança de variáveis r = μ - j2πσ2t. Em seguida, dr = dμ, e a integral anterior
se torna
Por fim, multiplicamos e dividimos o lado direito dessa equação por e obtemos
A expressão dentro dos colchetes é reconhecida como a função densidade de probabilidade gaussiana
cujo valor de - ∞ a ∞ é 1. Por isso,
37
Tomando como base os resultados anteriores, agora estamos prontos para demonstrar que
Substituindo diretamente na definição da transformada inversa de Fourier, temos que:
Reconhecemos a integral entre colchetes da discussão anterior que era igual à .
Então, a integral anterior se torna
Agora reconhecemos que a integral restante é igual à , da qual obtemos o
resultado final:
Problema 4.35
38
Com referência à Equação 4.9 - 1, todos os filtros passa-alto discutidos na Seção 4.9 podem ser
expressos a 1 menos a função de transferência do filtro passa-baixo (que sabemos que não tem um
impulso na origem). A transformada inversa de Fourier de 1 dá um impulso na origem nos filtros
espaciais passa-alto.
Problema 4.37
(a) Uma aplicação do filtro resulta:
Da mesma forma, K aplicações do filtro dariam
A DFT inversa do GK (u, v) daria a imagem resultante de K que passa pelo filtro gaussiano. Se K for
bastante largo, a LPF gaussiana se tornará um filtro notch de passagem, passando apenas F
(0,0). Sabemos que esse termo é igual ao valor médio da imagem. Assim, existe um valor de K após o
qual o resultado de repetidos filtros passa-baixo produzirá simplesmente uma imagem constante. O
valor de todos os pixels dessa imagem vai ser igual ao valor médio da imagem original.
Note que a resposta se aplica mesmo quando K se aproxima do infinito. Neste caso, o filtro irá se
aproximar de um impulso na origem, e isso ainda nos dá F (0,0) como resultado da filtragem.
Problema 4.41
Como M = 2n, podemos escrever as equações 4.11-16 e 4.11-17, como
39
e
A prova por indução começa por mostrar que ambas as equações se mantêm para n = 1:
e
Sabemos que esses resultados estão corretos a partir da discussão na Seção 4.11.3. Em seguida, vamos
supor que as equações se mantêm para n. Então, somos obrigados a provar que elas também são
verdadeiras para n + 1. Da Equação 4.11-14,
Substituindo mn de cima,
Portanto, a Equação 4.11-16 é válida para todos os n.
Da equação 4.11-17,
Substituindo a expressão acima por an, resulta
40
que conclui a prova.
41
Capítulo 5
Soluções de problemas
Problema 5.1
As soluções são mostradas na Figura 5.1, da esquerda para a direita.
Problema 5.3
As soluções são mostradas na Figura 5.3, da esquerda para a direita.
Problema 5.5
As soluções são mostradas na Figura 5.5, da esquerda para a direita.
42
Problema 5.7
As soluções são mostradas na figura 5.7, da esquerda para a direita.
Problema 5.9
As soluções são mostradas na Figura 5.9, da esquerda para a direita.
43
Problema 5.10
(a) A explicação para este problema é que a média geométrica é zero toda vez que qualquer pixel for
zero. Trace um perfil de uma borda ideal, com alguns pontos valendo 0 e outros valendo 1. A média
geométrica resultará apenas valores de 0 e 1, enquanto que a média aritmética dará valores
intermediários (desfoque).
Problema 5.12
Um filtro passa-banda é obtido subtraindo-se o correspondente rejeita banda a partir de 1:
Então:
(a) Filtro ideal passa-banda:
(b) Filtro butterworth passa-banda:
(c) Filtro passa-banda gaussiano:
44
Problema 5.14
Procede-se da seguinte forma:
Usando a definição exponencial da função seno
resulta
Essas são as transformadas de Fourier das funções
e
respectivamente. A transformada de Fourier de 1 dá um impulso na origem, e as exponenciais
deslocam a origem do impulso, como discutido na Seção 4.6.3 e no Quadro 4.3. Assim,
45
Problema 5.16
Da Equação 5.5-13,
Dado que f (x, y) = δ (x - a), então f (α, β) = δ (α - a). A seguir, usando a reação do impulso fornecida
no enunciado do problema,
onde consideramos o fato de ser a integral do impulso diferente de zero somente quando α = a. Em
seguida, observamos que
que está sob a forma de uma constante vezes uma densidade gaussiana com variância 1/2 ou
desvio padrão . Em outras palavras,
46
A integral de menos infinito a mais do infinito da quantidade dentro dos parênteses é 1, assim
que é uma versão desfocada da imagem original.
Problema 5.18
Seguindo o procedimento da Seção 5.6.3,
onde
e
Esses são integrais de seno e cosseno de Fresnel. Podem ser encontrados, por exemplo, no Manual de
funções matemáticas, de Abramowitz, ou em outras referências similares.
47
Problema 5.20
Meça o valor médio do fundo. Defina todos os pixels da imagem, exceto o do retículo, para este valor
de intensidade. Indique a transformada de Fourier desta imagem por G (u, v). Devido às características
do retículo serem fornecidas com um alto grau de precisão, pode-se construir uma imagem de fundo
(do mesmo tamanho), utilizando os níveis de intensidade de fundo determinados
anteriormente. Construiremos, então, um modelo de retículo no local correto (determinado a partir da
imagem dada) usando as dimensões fornecidas e o nível de intensidade do retículo. A transformada de
Fourier desta nova imagem é indicada por F (u, v). A proporção G (u, v) / F (u, v) é uma estimativa da
função de desfoque H (u, v). No caso provável de desaparecimento de valores em F (u, v), podemos
construir um filtro limitado radialmente usando o método discutido com relação à Figura 5.27. Por
conhecermos F (u, v) e G (u, v), e uma estimativa de H (u, v), a estimativa da função de desfoque pode
ser refinada, substituindo G e H na Equação 5.8-3 e ajustando K para chegar o mais próximo possível
de um bom resultado para F (u, v) (o resultado pode ser avaliado visualmente aplicando a
transformada inversa de Fourier). Se desejado, o filtro resultante em cada caso poderá ser usado para
tirar o desfoque da parte principal da imagem.
Problema 5.22
Esta é uma tomada simples do problema. Seu objetivo é ganhar familiaridade com os diversos termos
do filtro de Wiener. Da Equação 5.8-3,
Onde
Então,
48
Problema 5.25
(a) Dado que
Do Problema 5.24 (lembre-se de que se considera que a imagem e o ruído não têm correlação),
Forçando na equação resulta
Problema 5.27
A ideia básica por trás deste problema é usar a câmera e moedas representativas para modelar o
processo de degradação e, em seguida, utilizar os resultados em uma operação de filtro inverso. As
etapas principais são as seguintes:
1. Selecione moedas o mais próximo possível em tamanho e conteúdo de moedas gastas. Selecione um
fundo que se aproxime da textura e do brilho das fotos das moedas gastas.
2. Configure a câmera para fotografia tipo museu em uma geometria tão próxima quanto possível para
fornecer imagens que lembrem as de moedas gastas (o que inclui prestar atenção à
49
iluminação). Obtenha algumas fotos de teste. Para simplificar a experimentação, pegue uma câmera de
TV capaz de fornecer imagens que se assemelhem às fotos do ensaio. Isso pode ser feito conectando a
câmera a um sistema de processamento de imagem e gerando imagens digitais, que serão utilizadas no
experimento.
3. Obtenha conjuntos de imagens de cada moeda com configurações diferentes da lente. As imagens
resultantes devem se aproximar dos aspectos de ângulo, tamanho (em relação à área ocupada pelo
fundo), e desfoque das fotos das moedas gastas.
4. A configuração das lentes para cada imagem em (3) é um modelo do processo de desfoque para
cada imagem correspondente a uma moeda gasta. Para cada configuração, retire a moeda e o fundo e
substitua-os por um ponto pequeno, brilhante em um fundo uniforme, ou outro mecanismo para
aproximar um impulso de luz. Digitalize o impulso. A transformada de Fourier será a função de
transferência do processo de desfoque.
5. Digitalize cada foto (desfocada) da moeda gasta, e obtenha a transformada de Fourier. Neste ponto,
temos H (u, v) e G (u, v) para cada moeda.
6. Obtenha uma aproximação para F (u, v), usando um filtro Wiener. A Equação 5.8-3 é
particularmente atraente porque oferece um grau adicional de liberdade (K) ao experimento.
7. A transformada inversa de Fourier de cada aproximação F(u, v) fornece a imagem restaurada da
moeda. Em geral, são necessários vários passos experimentais desses procedimentos básicos com
diversas configurações e parâmetros diferentes para obter resultados aceitáveis em um problema como
este.
Problema 5.28
(b) A solução é mostrada na figura seguinte. As soluções são mostradas na Figura 5.28. Em cada
figura o eixo horizontal é ρ e o eixo vertical é θ, com θ = 0º na parte mais baixa e subindo até 180º. Os
lóbulos de gordura ocorrem em 45º, e o único ponto de intersecção é em 135º. A intensidade nesse
ponto é o dobro da intensidade em todos os outros pontos.
50
Problema 5.30
(a) Da Equação 5.11-3,
={ 1 se p = 0
= { 0 de outra maneira
onde a terceira etapa resulta do fato de δ (x, y) ser igual a zero se x e / ou y não forem zero.
Problema 5.31
(a) Da Seção 2.6, sabe-se que um operador, O, é linear se = . A
partir da definição da transformada de Radon na Equação 5.11-3,
mostrando assim que a transformada de Radon é uma operação linear.
51
(c) Do Capítulo 4 (Problema 4.11), sabemos que a convolução de duas funções f e h é definida como
Queremos mostrar que , onde ℜ representa a transformada de Radon.
Fazemos isso substituindo a expressão de convolução na Equação 5.11-3. Isto é,
onde foram utilizados os subscritos nas integrais distingui-las de suas variáveis. Todas as integrais são
compreendidas entre -∞ e ∞. Trabalhando com as integrais dentro dos colchetes com
e , temos
Reconhecemos a segunda integral como a transformada de Radon de h, mas em vez de estar com ρ e θ,
é uma função de ρ - αcosθ - β sen θ e θ. A notação na última linha é usada para indicar “a
transformada de Radon de h como função de ρ - αcosθ - β sen θ e θ”. Então,
onde ρ’ = αcosθ + β sen θ. Então, com base nas propriedades do impulso, podemos escrever
52
Então,
onde a quarta etapa resulta da definição da transformada de Radon e a quinta da definição da
convolução. Isso completa a prova.
Problema 5.33
O argumento da função s na Equação 5.11-24 pode ser escrito como:
Da Figura 5.47,
Então, substituindo na expressão anterior,
que está de acordo com a Equação 5.11-25.
53
Capítulo 6
Soluções de problemas
Problema 6.2
Se determinada cor for indicada por c, e suas coordenadas forem indicadas por . A distância
entre c e é
Da mesma forma a distância entre e
A porcentagem de em C é
A porcentagem de é simplesmente = 100 - . Na equação precedente vemos, por exemplo,
que quando c = , então d (c, ) = 0 e resulta que = 100% e = 0%. Similarmente, quando d
(c, ) = d , resulta que = 0% e = 100%. Os valores desses intervalos são facilmente
verificados como resultado dessas relações simples.
54
Problema 6.4
Use filtros de cor bem sintonizados com os comprimentos de onda das cores de três objetos. Com um
filtro específico no local, apenas os objetos cuja cor corresponde ao comprimento de onda produzirão
um efeito significativo na câmera monocromática. Pode-se usar uma roda de filtro motorizada a partir
de um computador. Se uma das cores for branca, então a resposta dos três filtros será
aproximadamente igual e alta. Se uma das cores for a preta, a resposta dos três filtros será
aproximadamente igual e baixa.
Problema 6.6
Para a imagem dada, o requisito de máxima intensidade e saturação significa que os valores do
componente RGB são 0 ou 1. Podemos criar a Tabela 6.6 com 0 e 255, que representa preto e branco,
respectivamente. Assim, obtemos a amostra monocromática exibida na Figura 6.6.
Problema 6.8
(a) Todos os valores de pixel da imagem vermelha são 255. Na imagem verde, a primeira coluna é de
0's, a segunda 1's e assim por diante, até a última coluna, que é toda composta de 255’s. Na imagem
Azul, a primeira linha é toda de 255's, a segunda de 254’s, e assim sucessivamente, até a última linha,
que é composta de todos os 0’s.
55
Problema 6.10
A Equação 6.2-1 revela que cada componente da imagem CMY é uma função de um único
componente da imagem RGB correspondente -C é uma função de R, M de G e Y de B. Para maior
clareza, vamos usar um número primo para designar os componentes CMY. Da Equação 6.5-6,
sabemos que
para i = 1, 2, 3 (para os componentes R, G e B). E da Equação 6.2-1 sabemos que os componentes
CMY correspondentes a e (que estamos indicando como números primos) são
e
Então,
e
resultando
Problema 6.12
Usando as equações de 6.2-2 a 6.2-4, obtemos os resultados mostrados na Tabela 6.12. Observe que,
de acordo com a Equação 6.2-2, a matiz é indefinida, quando R = G = B, desde que θ = (0 /
56
0). Além disso, a saturação é indefinida quando R = G = B = 0, desde que a Equação 6.2-3 produza S =
1 – 3 min (0) / (3 × 0) = 1 - (0 / 0). Assim, temos a amostra monocromática exibida na Figura 6.12.
Problema 6.14
Há dois aspectos importantes neste problema. Um deles é aproximá-lo ao espaço HSI e o outro é usar
coordenadas polares para criar uma imagem de matiz, cujos valores cresçam em função do ângulo. O
centro da imagem será o meio de qualquer área da imagem que for usada. Assim, por exemplo, os
valores da imagem de matiz, ao longo de um raio, quando o ângulo for 0º seriam todos 0’s. Em
seguida, o ângulo é incrementado por, digamos, um grau, e todos os valores ao longo desse raio seriam
1, e assim por diante. Os valores de saturação da imagem diminuem linearmente em todas as direções
radiais a partir da origem. A intensidade da imagem é apenas uma constante especificada. Com estes
princípios básicos em mente não é difícil escrever um programa que gere o resultado desejado.
57
Problema 6.16
(a) Dado que as cores na Figura 6.16 (a) são espectros de cores primárias. Dado também que as
imagens em nível de cinza no enunciado do problema são imagens de 8 bits. Esta última condição
significa que o matiz (ângulo) só pode ser dividido em um número máximo de 256 valores. Como os
valores de matiz são representados no intervalo de 0º e 360º, significa que, para uma imagem de 8 bits
os incrementos entre valores contíguos de matiz estão agora entre 360/255. Outra visão disso é que a
escala inteira da matiz [0, 360] está comprimida no intervalo entre [0, 255]. Assim, por exemplo, o
amarelo (a primeira cor primária que encontramos), que está em 60º, passa a ser 43 (o inteiro mais
próximo) na escala de números inteiros da imagem de 8 bits mostrada no enunciado do problema. Da
mesma forma, o verde, que é de 120º, torna-se 85 nessa imagem. A partir disso, calculamos facilmente
os valores das outras duas regiões, sendo 170 e 213. A região do meio é branco puro [proporções
iguais de vermelho, verde e azul na Figura 6.61 (a)] assim, o seu matiz, por definição, é 0. Isso
também acontece com o fundo preto.
Problema 6.18
Usando a Equação 6.2-3, vemos que o problema básico é que muitas cores diferentes têm o mesmo
valor de saturação. Isso foi demonstrado no Problema 6.12, em que vermelho puro, amarelo, verde,
azul, cíano, magenta, todos tinham uma saturação de 1. Istoé, enquanto nenhum dos componentes do
RGB for 0, a Equação 6.2-3 produz uma saturação de 1.
Considere as cores RGB (1, 0, 0) e (0, 0, 59, 0), que representam tons de vermelho e verde. Os tercetos
HSI para essas cores [da Equação 6.4-2 até a 6.4-4] são (0, 1, 0, 33) e (0, 33, 1, 0, 2),
respectivamente. Agora, os complementos dos valores RGB do início (veja Seção 6.5.2) são (0, 1, 1) e
(1, 0, 41, 1), respectivamente, e as cores correspondentes são cíano e magenta. Seus valores HSI [da
Equação 6.4-2 até a 6.4-4] são 0, 5, 1, 0, 66 e 0, 83, 0, 48, 0, 8, respectivamente. Assim, para o
vermelho, uma saturação inicial de 1 originou a saturação de 1 cíano complementar, enquanto que
para o verde, uma saturação inicial de 1 originou a saturação de 0, 48 magenta complementar. Ou seja,
58
a mesma saturação inicial resultou em duas saturações diferentes "complementares". Só a saturação
não é informação suficiente para calcular a saturação da cor complementar.
Problema 6.20
As transformações RGB para um complemento [da Figura 6.33 (b)] são:
onde i = 1, 2, 3 (para os componentes R, G e B). Mas da definição do espaço CMY da Equação 6.2-1,
sabemos que os componentes CMY correspondentes a e , que vamos indicar por meio de
números primos, são
Assim,
e
resulta
59
Problema 6.22
Com base na discussão da Seção 6.5.4, e com referência à roda de cor da figura 6.32, podemos
diminuir a proporção de amarelo em (1) diminuindo o amarelo, (2) aumentando o azul, (3)
aumentando o cíano e o magenta, ou (4) diminuindo o vermelho e o verde.
Problema 6.24
Conceitualmente, a abordagem mais simples, é transformar toda a imagem de entrada para o espaço de
cor HSI, efetuar a especificação do histograma em discussão na Seção 3.3.2 somente sobre o
componente de intensidade (I), (isolando H e S), e converter o componente intensidade resultante com
os componentes matiz e saturação de volta ao espaço de cor inicial.
Problema 6.27
(a) O cubo é composto de seis planos que se cruzam no espaço RGB. A equação geral para tal plano é
onde a, b, c e d são parâmetros e os zês são os componentes de qualquer ponto (vetor) z no espaço
RGB disposto no plano. Se um ponto z RGB não estiver disposto no plano e suas coordenadas forem
substituídas na equação precedente, a equação dará um valor positivo ou negativo, nunca vai retornar a
zero. Dizemos que z se encontra no lado positivo ou negativo do plano, dependendo se o resultado for
positivo ou negativo. Podemos mudar o lado positivo de um plano multiplicando seus coeficientes
(exceto d) por - 1. Suponhamos que testamos o ponto a dado no enunciado do problema para verificar
se está no lado positivo ou negativo de cada um dos seis planos que compõem a caixa, e alteramos o
coeficiente de qualquer plano para o qual o resultado fosse negativo. Então, a estará situado sobre o
lado positivo de todos os planos que compõem a caixa delimitadora. Na verdade todos os pontos
dentro do limite da caixa produzirão valores positivos quando suas coordenadas forem substituídas nas
60
equações dos planos. Os pontos fora da caixa darão, pelo menos, um valor negativo (ou zero se estiver
sobre o plano. Assim, o método consiste em substituir os pontos de cor desconhecidos nas equações
de todos os seis planos. Se todos os resultados forem positivos, o ponto estará dentro da caixa, senão
estará fora da caixa. No enunciado do problema foi pedido um diagrama de fluxo para facilitar a
avaliação da linha de raciocínio do aluno.
61
Capítulo 7
Soluções de problemas
Problema 7.2
Uma pirâmide de aproximação média é formada por meio da estruturação de um bloco proporcional
2×2. Como a imagem inicial é de tamanho 4 × 4, J = 2 e f (x, y), foi colocada no nível 2 da pirâmide de
aproximação média. O nível de aproximação 1 é (tomando as proporções do bloco 2 × 2 sobre f (x, y) e
a subamostragem)
e o nível de aproximação 0 é, similarmente, [8,5]. A pirâmide de aproximação média completa é
Usa-se replicação de pixel na geração de predição complementar da pirâmide residual. O nível 0 da
predição da pirâmide residual é a aproximação de mais baixa resolução, [8.5]. Obtém-se o nível 2 de
predição residual pela amostragem da aproximação do nível 1 e subtração da aproximação do nível de
2 (imagem original). Assim, obtemos
62
Da mesma forma, a predição residual de nível 1 é obtida por sobre amostragem de aproximação do
nível 0 e subtraindo-o da aproximação do nível 1 para resultar
A predição da pirâmide residual é, portanto,
Problema 7.3
O número de elementos em uma pirâmide de nível J + 1, onde é delimitada por ou
(veja a Seção 7.1.1):
Para J > 0. Podemos gerar a seguinte tabela:
63
Todos exceto o caso trivial, J = 0 são expansões. O fator de expansão é função de J e delimitado por
3/4 ou 1,33.
Problema 7.7
A reconstrução é feita invertendo o processo de decomposição - ou seja, substituindo o operador de
sub-amostragem pelo de superamostragem e os filtros de análise pelo seu filtro de síntese homólogo,
como mostra a Figura 7.7.
Problema 7.10
A base é ortonormal e os coeficientes são calculados pelo vetor equivalente da Equação 7.2-5:
64
então,
Problema 7.13
Da Equação 7.2-19, verificamos que
e usando a definição da função wavelet de Haar da Equação 7.2-30, obtenha o gráfico da Figura 7.13.
Para expressar ψ3,3 (x) como função de funções de escala, empregamos a Equação 7.2-28 e o vetor
wavelet de Haar definido no Exemplo 7.6 - ou seja, hψ (0) = 1 / √2 e hψ (1) = -1 / √2. Assim, obtemos
de modo que
65
Então, já que ψ3,3(x) = 2√2ψ (8x - 3) da equação acima, substituindo resulta
Problema 7.17
Intuitivamente, a transformada contínua de wavelet (CWT) calcula o índice de semelhança entre o
sinal e o wavelet em diversas escalas e translações. Quando o índice é grande, a semelhança é forte, do
contrário, é fraca. Assim, se uma função for semelhante a si mesma em diferentes escalas, o
coeficiente de semelhança também será. Os valores do coeficiente de CWT (o índice) têm um padrão
característico. Como resultado, pode-se dizer que a função cujo TCW é mostrado é autossimilar, como
um sinal fractal.
66
Problema 7.18
(b) A DWT é a melhor opção quando precisamos de uma representação com economia de espaço que
seja suficiente para a reconstrução da função ou imagem original. A CWT é muitas vezes mais fácil de
interpretar, porque a redundância embutida tende a reforçar os traços da função ou imagem. Por
exemplo, veja a autossimilaridade do Problema 7.17.
Problema 7.19
O banco de filtro é o primeiro banco na Figura 7.19, como mostrado na Figura 7.19:
Problema 7.21
(a) Entrada φ (n) = {1, 1, 1, 1, 1, 1, 1, 1} = φ0, 0 (n) para uma transformada de wavelet com três
escalas com o escalonamento de Haar e as funções wavelet. Desde que os coeficientes da transformada
de wavelet medem as semelhanças entre a entrada e as funções de base, a transformada resultante é
O termo Wφ (0,0) pode ser calculado usando a Equação 7.3-5, com j0 = k = 0.
Problema 7.22
Ambos são representações de multirresolução que empregam uma imagem de aproximação de
resolução reduzida e uma série de imagens de diferença. Para o FWT, essas imagens de diferença são
os coeficientes de detalhe da transformada; para a pirâmide, são as predições residuais.
Para construir a aproximação da pirâmide que corresponde à transformada da Figura 7.10 (a), vamos
utilizar o FWT-1, 2-d banco de síntese da Figura 7.24 (c). Em primeiro lugar, coloque os coeficientes
de aproximação 64 × 64 da Figura 7.10 (a) na parte superior da pirâmide que está sendo
67
construída. Em seguida, utilize-os, juntamente com os coeficientes de detalhe 64 × 64 horizontal,
vertical e diagonal do canto superior esquerdo da Figura 7.10 (a), para impelir a entrada do banco de
filtro na Figura 7.24(c). O resultado será uma aproximação de 128 × 128 da imagem original e deverá
ser usado como o próximo nível de aproximação da pirâmide. A aproximação de 128 × 128 é então
usada com os três coeficientes de detalhe da imagem na parte ¼ superior da transformada da
Figura 7.10 (a) para impelir a síntese do banco de filtro da Figura 7.24 (c) uma segunda vez -
produzindo uma aproximação de 256 × 256 que é colocada como o próximo nível de aproximação da
pirâmide. Esse processo é então repetido uma terceira vez para recuperar a imagem original de 512 ×
512, que foi colocada no fundo da aproximação da pirâmide. Assim, a aproximação tem quatro níveis.
Problema 7.24
Como pode ser visto na sequência de imagens que são mostradas, o DWT não é constante de
deslocamento. Se a entrada for deslocada, a transformada sofre alteração. Uma vez que todas as
imagens originais no problema são de 128 × 128, eles se tornam as entradas Wφ (7, m, n) para o
processo computacional da FWT. O banco de filtro da Figura 7.24 (a) pode ser usado como j + 1 = 7.
Para a transformada de escala única, são gerados coeficientes da transformada Wφ (6, m, n) e Wiψ (6,
m, n) para i = H, V, D. Com wavelets Haar, o processo de transformação subdivide a imagem em
blocos 2 × 2 que não se sobrepõe e calculam médias e diferenças de dois pontos (por vetores de escala
e wavelet). Assim, nas duas primeiras transformadas mostradas, não há coeficientes de detalhe
horizontal, vertical ou diagonal; as imagens de entrada são constantes em todos os blocos 2 × 2 (assim
todas as diferenças são 0). Se a imagem original for deslocada em um pixel, são gerados os
coeficientes de detalhe, uma vez que existem áreas 2 × 2 que não são constantes. Esse é o caso da
terceira transformada mostrada.
68
Capítulo 8
Soluções de problemas
Problema 8.4
(a) A Tabela 8.4 mostra os valores de intensidade iniciais, seus códigos de 8 bits, a soma da IGS usada
em cada etapa, o código IGS de 4 bits e o seu valor equivalente decodificado (o equivalente decimal
do código IGS multiplicado por 16), além do erro entre as intensidades IGS decodificadas e seus
valores de entrada, e o erro quadrático.
(b) Usando a Equação 8.1-10 e os valores de erro quadrático da Tabela 8.4, o erro rms (erro médio
quadrático) é
ou cerca de 7, 8 níveis de intensidade. Da Equação 8.1-11 a proporção do sinal-ruído é de
69
Problema 8.6
Calculam-se os fatores de conversão usando a relação logarítmica
Assim, 1 Hartley = 3,3219 bits e um nat = 1,4427 bits.
Problema 8.7
Se o conjunto de símbolos de fonte forem com probabilidades
. Então, usando a Equação 8.1-6 e o fato de que a soma de todos
os é 1, obtemos
70
Usando a relação de log do Problema 8.6, torna-se
Em seguida, multiplicando a inequação lnx ≤ x -1 por -1 para obter ln 1 / x ≥ 1 - x e aplicando ao
último resultado,
de modo que
logq ≥ H.
Portanto, H é sempre inferior ou igual à logq. Além disso, tendo em vista a condição de igualdade (x =
1) para ln 1 / x ≥ 1 - x, que foi introduzida em apenas um ponto na derivação acima, teremos a
igualdade estrita se e somente se = 1/q para todos os j.
71
Problema 8.9
(d) Podemos calcular a frequência relativa de pares de pixels assumindo que a imagem esteja
conectada linha a linha e do final ao início. As probabilidades resultantes estão listadas na Tabela 8.9-
2.
A entropia dos pares de intensidade é estimada utilizando a Equação 8.1-7 e dividindo por 2 (porque
os pixels são considerados em pares):
A diferença entre esse valor e a entropia em (a) nos diz que se pode criar um mapeamento para
eliminar (1, 811 - 1,25) = 0,56 bits / pixel de redundância espacial.
Problema 8.15
Para decodificar a
72
1. Conte o número de 1s em uma varredura da esquerda para a direita de uma sequência de bits
concatenada antes de atingir o primeiro 0, e iguale i ao número de 1s que foi contado.
2. Obtenha os bits k + i após o 0 identificado na etapa 1 e faça d ser equivalente decimal.
3. O inteiro decodificado será então,
Por exemplo, para decodificar o primeiro código em um fluxo de bits 10111011...,
façamos i = 1, o número de 1s em uma varredura do fluxo de bits da esquerda para a direita antes de
encontrar o primeiro 0. Obtenha os bits 2 + 1 = 3, após o 0, ou seja, 111, de modo que d = 7. O inteiro
decodificado será então
Repita o processo para a palavra-código seguinte, que começa com o sequência de bits 011...
Problema 8.18
O processo aritmético de decodificação é o inverso do processo de codificação. Comece dividindo o
intervalo (0, 1) de acordo com as probabilidades dos símbolos. Isso é mostrado na Tabela 8.18. O
decodificador sabe imediatamente que a mensagem de 0,23355 começa com um e, uma vez que a
mensagem codificada está no intervalo entre [0, 2, 0, 5). Isto deixa claro que o segundo símbolo é um
a, que restringe o intervalo para [0, 2, 0, 26). Para verificar além, divida o intervalo [0, 2, 0, 5) de
acordo com as probabilidades dos símbolos. Procedendo dessa forma, que é o mesmo procedimento
usado para codificar mensagem, temos eaii!.
73
Problema 8.20
A entrada para o algoritmo de decodificação LZW no Exemplo 8.7 é
O dicionário inicial, para ser coerente com a codificação, contém 512 locais com os primeiros 256
correspondendo a valores de intensidade de 0 a 255. O algoritmo de decodificação inicia obtendo o
primeiro valor codificado, produzido do valor correspondente do dicionário, e fixando a sequencia
reconhecida ao primeiro valor. Para cada valor adicional codificado, (1) produzimos a entrada do
dicionário para o(s) valor (es) do pixel, (2) adicionamos uma nova entrada no dicionário, cujo
conteúdo é a sequência reconhecida mais o primeiro elemento do valor codificado que está sendo
processado; e (3) fixamos a sequência reconhecida para o valor codificado que está sendo processado.
Para a saída codificada do Exemplo 8.12, a sequência de operações é a mostrada na Tabela
8.20. Observe, por exemplo, na linha 5 da tabela que a nova entrada do dicionário para a localidade
259 é 126-39, a concatenação da sequência reconhecida atualmente, 126, e o primeiro elemento do
valor codificado a ser processado é o 39 da entrada 39-39 na localização 256 do dicionário. A saída é
então lida a partir da terceira coluna da tabela, resultando
onde se supõe que o decodificador conhece, ou foi fornecido, o tamanho da imagem que foi
recebida. Note que o dicionário foi gerado à medida que a decodificação foi sendo realizada.
74
Problema 8.24
(a) - (b) Após o procedimento descrito na Seção 8.2.8, obtemos os resultados mostrados na Tabela
8.24.
Problema 8.27
O decodificador MPEG apropriado é mostrado na Figura 8.27.
75
Problema 8.29
A derivação continua substituindo a função de probabilidade uniforme nas equações (8.2-57) - (8.2-
59) e resolvendo as equações resultantes simultâneas com L = 4. A equação 8.2-58 resulta
Substituindo esses valores nas integrais definidas pela Equação 8.2-57, obtemos duas novas
equações. A primeira é (assumindo que ≤ A)
assim
A primeira dessas relações não faz sentido, uma vez que ambos e devem ser positivos. A
segunda relação é válida. A segunda integral resulta (observando que é menor que A, então a
integral de A ao ∞ é 0, por definição de p(s))
76
Substituindo da primeira simplificação integral nesse resultado, obtemos
Se voltarmos substituindo esses valores de , encontramos os valores e correspondentes:
e para
e para
Por não ser uma solução real (a segunda equação integral seria então avaliada de A a A,
resultando 0 ou nenhuma equação), a solução é dada pela segunda. Isso é,
77
Problema 8.34
Uma variedade de métodos para a inserção de marcas-d'água invisíveis nos coeficientes DFT
(Transformada Discreta de Fourier) de uma imagem tem sido relatadas na literatura. Aqui há uma
versão simplificada de uma na qual a inserção da marca d'água é feita da seguinte forma:
1. Crie uma marca-d'água, gerando um elemento P de uma sequência de números pseudorrandômica,
, provenientes de uma distribuição gaussiana com média zero e variância
unitária.
2. Calcule a DFT da imagem para a marca-d'água. Assumimos que a transformada não foi centrada
pré-multiplicando a imagem (-1) x + y.
3. Escolha coeficientes P/2 de cada um dos quatro quadrantes da DFT na faixa de frequência
média. Isso é facilmente realizado escolhendo coeficientes na ordem mostrada na Figura 8.34 e
pulando os primeiros coeficientes K (de baixa frequência) em cada quadrante.
4. Insira a primeira metade da marca-d'água nos coeficientes DFT escolhidos, para 1 ≤ i ≤ p/2,
nos quadrantes I e III da DFT usando
5. De forma semelhante, insira a segunda metade da marca-d'água nos coeficientes DFT escolhidos
dos quadrantes II e IV da DFT. Note que esse processo mantém a simetria da transformada de uma
imagem real-valorizada. Além disso, a constante α determina a força da marca-d'água inserida.
6. Calcule a TDF inversa com os coeficientes da marca-d’água substituindo os coeficientes não
marcados.
A extração da marca d’água é feita da seguinte forma:
1. Localize os coeficientes DFT que a contêm seguindo o processo de inserção no algoritmo fixado.
78
2. Calcule a marca-d’água usando
3. Calcule a correlação entre ω e ω e compare o limite T predeterminado para detectar se a marca está
presente.
79
Capítulo 8
Soluções de problemas
Problema 8.4
(a) A Tabela 8.4 mostra os valores de intensidade iniciais, seus códigos de 8 bits, a soma da IGS usada
em cada etapa, o código IGS de 4 bits e o seu valor equivalente decodificado (o equivalente decimal
do código IGS multiplicado por 16), além do erro entre as intensidades IGS decodificadas e seus
valores de entrada, e o erro quadrático.
(b) Usando a Equação 8.1-10 e os valores de erro quadrático da Tabela 8.4, o erro rms (erro médio
quadrático) é
ou cerca de 7, 8 níveis de intensidade. Da Equação 8.1-11 a proporção do sinal-ruído é de
80
Problema 8.6
Calculam-se os fatores de conversão usando a relação logarítmica
Assim, 1 Hartley = 3,3219 bits e um nat = 1,4427 bits.
Problema 8.7
Se o conjunto de símbolos de fonte forem com probabilidades
. Então, usando a Equação 8.1-6 e o fato de que a soma de todos
os é 1, obtemos
81
Usando a relação de log do Problema 8.6, torna-se
Em seguida, multiplicando a inequação lnx ≤ x -1 por -1 para obter ln 1 / x ≥ 1 - x e aplicando ao
último resultado,
de modo que
logq ≥ H.
Portanto, H é sempre inferior ou igual à logq. Além disso, tendo em vista a condição de igualdade (x =
1) para ln 1 / x ≥ 1 - x, que foi introduzida em apenas um ponto na derivação acima, teremos a
igualdade estrita se e somente se = 1/q para todos os j.
82
Problema 8.9
(d) Podemos calcular a frequência relativa de pares de pixels assumindo que a imagem esteja
conectada linha a linha e do final ao início. As probabilidades resultantes estão listadas na Tabela 8.9-
2.
A entropia dos pares de intensidade é estimada utilizando a Equação 8.1-7 e dividindo por 2 (porque
os pixels são considerados em pares):
A diferença entre esse valor e a entropia em (a) nos diz que se pode criar um mapeamento para
eliminar (1, 811 - 1,25) = 0,56 bits / pixel de redundância espacial.
Problema 8.15
Para decodificar a
83
1. Conte o número de 1s em uma varredura da esquerda para a direita de uma sequência de bits
concatenada antes de atingir o primeiro 0, e iguale i ao número de 1s que foi contado.
2. Obtenha os bits k + i após o 0 identificado na etapa 1 e faça d ser equivalente decimal.
3. O inteiro decodificado será então,
Por exemplo, para decodificar o primeiro código em um fluxo de bits 10111011...,
façamos i = 1, o número de 1s em uma varredura do fluxo de bits da esquerda para a direita antes de
encontrar o primeiro 0. Obtenha os bits 2 + 1 = 3, após o 0, ou seja, 111, de modo que d = 7. O inteiro
decodificado será então
Repita o processo para a palavra-código seguinte, que começa com o sequência de bits 011...
Problema 8.18
O processo aritmético de decodificação é o inverso do processo de codificação. Comece dividindo o
intervalo (0, 1) de acordo com as probabilidades dos símbolos. Isso é mostrado na Tabela 8.18. O
decodificador sabe imediatamente que a mensagem de 0,23355 começa com um e, uma vez que a
mensagem codificada está no intervalo entre [0, 2, 0, 5). Isto deixa claro que o segundo símbolo é um
a, que restringe o intervalo para [0, 2, 0, 26). Para verificar além, divida o intervalo [0, 2, 0, 5) de
acordo com as probabilidades dos símbolos. Procedendo dessa forma, que é o mesmo procedimento
usado para codificar mensagem, temos eaii!.
84
Problema 8.20
A entrada para o algoritmo de decodificação LZW no Exemplo 8.7 é
O dicionário inicial, para ser coerente com a codificação, contém 512 locais com os primeiros 256
correspondendo a valores de intensidade de 0 a 255. O algoritmo de decodificação inicia obtendo o
primeiro valor codificado, produzido do valor correspondente do dicionário, e fixando a sequencia
reconhecida ao primeiro valor. Para cada valor adicional codificado, (1) produzimos a entrada do
dicionário para o(s) valor (es) do pixel, (2) adicionamos uma nova entrada no dicionário, cujo
conteúdo é a sequência reconhecida mais o primeiro elemento do valor codificado que está sendo
processado; e (3) fixamos a sequência reconhecida para o valor codificado que está sendo processado.
Para a saída codificada do Exemplo 8.12, a sequência de operações é a mostrada na Tabela
8.20. Observe, por exemplo, na linha 5 da tabela que a nova entrada do dicionário para a localidade
259 é 126-39, a concatenação da sequência reconhecida atualmente, 126, e o primeiro elemento do
valor codificado a ser processado é o 39 da entrada 39-39 na localização 256 do dicionário. A saída é
então lida a partir da terceira coluna da tabela, resultando
onde se supõe que o decodificador conhece, ou foi fornecido, o tamanho da imagem que foi
recebida. Note que o dicionário foi gerado à medida que a decodificação foi sendo realizada.
85
Problema 8.24
(a) - (b) Após o procedimento descrito na Seção 8.2.8, obtemos os resultados mostrados na Tabela
8.24.
Problema 8.27
O decodificador MPEG apropriado é mostrado na Figura 8.27.
86
Problema 8.29
A derivação continua substituindo a função de probabilidade uniforme nas equações (8.2-57) - (8.2-
59) e resolvendo as equações resultantes simultâneas com L = 4. A equação 8.2-58 resulta
Substituindo esses valores nas integrais definidas pela Equação 8.2-57, obtemos duas novas
equações. A primeira é (assumindo que ≤ A)
assim
A primeira dessas relações não faz sentido, uma vez que ambos e devem ser positivos. A
segunda relação é válida. A segunda integral resulta (observando que é menor que A, então a
integral de A ao ∞ é 0, por definição de p(s))
87
Substituindo da primeira simplificação integral nesse resultado, obtemos
Se voltarmos substituindo esses valores de , encontramos os valores e correspondentes:
e para
e para
Por não ser uma solução real (a segunda equação integral seria então avaliada de A a A,
resultando 0 ou nenhuma equação), a solução é dada pela segunda. Isso é,
88
Problema 8.34
Uma variedade de métodos para a inserção de marcas-d'água invisíveis nos coeficientes DFT
(Transformada Discreta de Fourier) de uma imagem tem sido relatadas na literatura. Aqui há uma
versão simplificada de uma na qual a inserção da marca d'água é feita da seguinte forma:
1. Crie uma marca-d'água, gerando um elemento P de uma sequência de números pseudorrandômica,
, provenientes de uma distribuição gaussiana com média zero e variância
unitária.
2. Calcule a DFT da imagem para a marca-d'água. Assumimos que a transformada não foi centrada
pré-multiplicando a imagem (-1) x + y.
3. Escolha coeficientes P/2 de cada um dos quatro quadrantes da DFT na faixa de frequência
média. Isso é facilmente realizado escolhendo coeficientes na ordem mostrada na Figura 8.34 e
pulando os primeiros coeficientes K (de baixa frequência) em cada quadrante.
4. Insira a primeira metade da marca-d'água nos coeficientes DFT escolhidos, para 1 ≤ i ≤ p/2,
nos quadrantes I e III da DFT usando
5. De forma semelhante, insira a segunda metade da marca-d'água nos coeficientes DFT escolhidos
dos quadrantes II e IV da DFT. Note que esse processo mantém a simetria da transformada de uma
imagem real-valorizada. Além disso, a constante α determina a força da marca-d'água inserida.
6. Calcule a TDF inversa com os coeficientes da marca-d’água substituindo os coeficientes não
marcados.
A extração da marca d’água é feita da seguinte forma:
1. Localize os coeficientes DFT que a contêm seguindo o processo de inserção no algoritmo fixado.
89
2. Calcule a marca-d’água usando
3. Calcule a correlação entre ω e ω e compare o limite T predeterminado para detectar se a marca está
presente.
90
Capítulo 9
Soluções de problemas
Problema 9.2
(a) Com referência à discussão da Seção 2.5.2, a m- conectada é usada para evitar múltiplos caminhos
que são inerentes à 8- conectada. Em um pixel de espessura, com a fronteira conectada
completamente, esses caminhos múltiplos se manifestam em quatro padrões básicos mostrados na
Figura 9.2 (a). A solução para o problema é usar a transformada aleatória para detectar os padrões e,
em seguida, alterar o pixel central para 0, eliminando assim os vários caminhos. A sequência de etapas
morfológicas para se conseguir isso é a seguinte:
onde A é a imagem de entrada que contém a fronteira.
Problema 9.4
(a) Aerosão é definida como interseção. A interseção de dois conjuntos convexos é também convexa.
(b) Veja a Figura 9.4(a) Tenha em mente que os conjuntos digitais em questão são os pontos pretos
maiores. As retas são mostradas por conveniência em visualizar qual seriam os conjuntos contínuos,
91
não fazem parte dos conjuntos aqui considerados. O resultado da dilatação nesse caso não é convexo,
pois o ponto central não está no conjunto.
Problema 9.5
Veja a Figura 9.5. O centro de cada elemento estruturante é apresentado como um ponto preto.
(a) Esta solução foi obtida por meio da erosão do conjunto original (indicado pelotracejado) com o
elemento estruturante mostrado (note que a origem está na parte inferior, à direita).
(b) Esta solução foi obtida erodindo o conjunto original (indicado pelo tracejado) com o elemento
estruturante retangular comprido mostrado.
(c) Esta solução foi obtida primeiro erodindo a imagem mostrada para baixo, em duas retas verticais,
utilizando o elemento estruturante retangular (note que esses elementos são ligeiramente mais altos
que o ponto central da figura). Esse resultado foi então dilatado com o elemento estruturante circular.
(d) Esta solução foi obtida primeiro dilatando o conjunto original com o disco grande mostrado. A
imagem dilatada foi erodida com um disco cujo diâmetro era igual à metade do diâmetro do disco
usado para a dilatação.
Problema 9.7
(a) A imagem dilatada crescerá sem limites.
(b) O conjunto de um elemento (ou seja, uma imagem de um pixel).
92
Problema 9.9
A prova, que consiste em mostrar que a expressão
para todos
decorre diretamente da definição de translação, porque o conjunto (B)x tem elementos da forma x + b
para b ∈ B. Ou seja, x + b ∈ A para cada b ∈ B implica que (B) x ⊆ A. Por outro lado, (B) x ⊆ A
implica que todos os elementos de (B)x estão contidos em A, ou x + b ∈ A para cada b ∈ B.
Problema 9.11
A abordagem é para provar que
para e
Os elementos (B)x são da forma x - b para b ∈ B. A condição (B)x ∩ A ≠ Ø implica que para algum b ∈
B, x - b ∈ A ou x - b = a para algum a ∈ A (note na equação anterior que x = a + b). Por outro lado, se x
= a + b para algum a ∈ A e b ∈ B, então x - b = a ou x - b ∈ A, o que implica que (B) x ∩ A = Ø.
Problema 9.14
Começando com a definição de fechamento
93
A prova da outra propriedade de dualidade segue uma abordagem semelhante.
Problema 9.15
(a) Aerosão de um conjunto A por B é definida como o conjunto de todos os valores de transformação,
z, de B tal que (B)z esteja contido em A. Se a origem de B estiver contida em B, em seguida, o conjunto
de pontos que descreve a erosão é simplesmente todos os locais possíveis da origem de B tal que (B)z
esteja contido em A. Em seguida, decorre que a partir dessa interpretação (e da definição de erosão) a
erosão de A por B é um subconjunto de A. Da mesma forma, a dilatação de um conjunto C por B é o
conjunto de todos os locais de origem de B tal que a interseção de C e (B)z não está vazia. Se a origem
de B estiver contida em B, implica que C é um subconjunto da dilatação de C por B. Da Equação (9.3-
1, sabemos que A ◦ B = (A _ B) ⊕ B. Faça que C indique a erosão de A por B. Já foi estabelecido que
C é um subconjunto de A. Da discussão anterior, sabemos também que C é um subconjunto da
dilatação de C por B. Mas C é um subconjunto de A, assim a abertura de A por B (a erosão de A por B
seguida de uma dilatação do resultado) é um subconjunto de A.
Problema 9.18
Foi possível reconstituir os três grandes quadrados para o seu tamanho original, pois eles não estavam
totalmente erodidos e a geometria dos objetos e o elemento estruturante era o mesmo (ou seja, eram
quadrados). Isso também teria sido verdade se os objetos e os elementos estruturantes fossem
retangulares. No entanto, uma reconstrução completa, por exemplo, dilatando um retângulo que
estivesse parcialmente erodido por um círculo, não seria possível.
Problema 9.20
A principal diferença entre o lago e as outras duas características é que o primeiro forma um contorno
fechado. Assumindo que as formas são processadas uma de cada vez,abordagem básica de duas fases
para diferenciar entre as três formas é a seguinte:
94
Etapa 1. Aplique um detector de ponto final ao objeto. Se não encontrar pontos finais, o objeto é um
lago. Caso contrário, é uma baía ou uma reta.
Etapa 2. Há inúmeras maneiras de diferenciar uma baía de uma reta. Uma das mais simples é
determinar uma reta juntando os dois pontos finais do objeto. Se o E do objeto e a reta possuem apenas
dois pontos, a Figura é uma baía. Caso contrário, será uma reta. Há casos patológicos em que esse
teste irá falhar, e será necessário incorporar inteligência adicional no processo, mas esses casos
tornam-se menos prováveis com o aumento da resolução de figuras mais diluídas.
Problema 9.22
(a) Tomando como referência o exemplo mostrado na Figura 9.22, a fronteira que resulta de utilizar o
elemento estruturante na Figura 9.15 (c) geralmente forma um caminho de 8- conectados (figura à
esquerda), enquanto que a fronteira resultante do elemento estruturante na Figura 9.13 (b) forma um
caminho de 4-conectados (figura à direita).
Problema 9.23
(a) Se não for permitido tocar as esferas, a solução do problema começa pela determinação de quais
pontos são pontos de fundo (preto). Para fazer isso, escolhemos um ponto preto no contorno da
imagem e determinamos todos os pontos negros conectados a ele usando um algoritmo de componente
conectado (Seção 9.5.3). Esses componentes conectados são rótulos com valor diferente de 1 ou 0. Os
pontos negros remanescentes são interiores às esferas. Podemos preencher todas as esferas com o
branco aplicando o algoritmo de preenchimento de buracos da Seção 9.5.2 até que todos os pontos
negros do interior tenham se transformado em pontos brancos. O aluno alerta irá perceber que se os
95
pontos do interior já são conhecidos, podem simplesmente ser transformados em pontos
brancos, preenchendo assim as esferas sem ter que fazer o preenchimento da região como um
procedimento separado.
Problema 9.24
Indique a imagem original como A. Crie uma imagem do mesmo tamanho que a original, mas
constituída de todos os 0s, chame-a de B. Escolha um ponto arbitrário identificado como 1 em A,
chame-o de , e aplique o algoritmo do componente conectado. Quando o algoritmo convergir, foi
detectado um componente conectado. Rotule e copie em B o conjunto de todos os pontos em A que
pertencem aos componentes conectados recém encontrados, defina os pontos como 0 em A e chame a
imagem modificada de . Escolha um ponto arbitrário rotulado de 1 em , chame-o de , e
repita o procedimento recém fornecido. Se houver K componentes conectados na imagem original,
esse procedimento irá resultar em uma imagem constituída de todos os 0's após as aplicações de K do
procedimento recém fornecido. A imagem B irá conter K componentes conectados rotulados.
Problema 9.27
A erosão é o conjunto de pontos z tal que B, transladado por z, está contido em A. Se B for um ponto
único, essa definição será satisfeita apenas pelos pontos que contêm A, então a erosão de A por B é
simplesmente A. Da mesma forma, a dilatação é o conjunto de pontos z tal que B(B = B, neste caso),
transladado por z, se sobrepõe a A, por um ponto pelo menos. Devido a B ser um ponto único, o único
conjunto de pontos que satisfaz essa definição é o que contém A, assim a dilatação de A por B é A.
Problema 9.29
Considere o primeiro caso para n = 1:
96
onde a terceira etapa decorre da lei de DeMorgan , a quarta etapa
decorre da propriedade de dualidade da erosão e dilatação (ver Seção 9.2.3), a quinta etapa decorre da
simetria de SE, e a última etapa decorre da definição da dilatação geodésica. A próxima etapa, E (2)G
(F), envolveria a erosão geodésica do resultado acima. Mas como esse resultado é simplesmente um
conjunto, podemos obtê-lo em termos de dilatação. Ou seja, complementando o resultado recém
mencionado, complementar G, calcular a dilatação geodésica de dimensão 1 dos dois, e complementar
o resultado.
Continuando dessa maneira concluímos, que
Similarmente,
Como antes,
Problema 9.31
(a) Considere o caso quando n = 2
97
onde a segunda e a terceira retas decorrem da propriedade de dualidade na Equação 9.2-5. Para um
número arbitrário de erosões,
que, quando expandida, irá resultar
(b) Comprovado de maneira similar.
Problema 9.33
(a) Da Equação 9.6-1,
A segunda etapa decorre da definição do complemento de uma função de escala de cinza, ou seja, o
mínimo de um conjunto de números é igual ao negativo do máximo do negativo daqueles números. A
98
terceira etapa decorre da definição do complemento. A quarta etapa decorre da definição da dilatação
de escala de cinza na Equação 9.6-2, usando o fato de que . A
última etapa decorre da definição do complemento . A outra propriedade de dualidade é
comprovada de forma similar.
(c) Comprovamos a primeira propriedade da dualidade. Começamos com uma dilatação geodésica de
dimensão 1:
Elemento estruturante
(b)
Figura 9.35
A segunda etapa decorre da definição da dilatação geodésica. A terceira etapa decorre do fato de o
pointwise mínimo de dois conjuntos de números ser o negativo do pointwise máximo de dois
números. A quarta e a quinta etapas decorrem da definição do complemento. A sexta etapa decorre da
dualidade da dilatação e da erosão (usamos o fato dado que b = b). A última etapa decorre da definição
de erosão geodésica.
99
A próxima etapa na iteração, envolveria a dilatação geodésica de dimensão 1 do
resultado anterior. Mas como esse resultado é simplesmente um conjunto, podemos obtê-lo em termos
de erosão. Ou seja, complementando o resultado recém mencionado, complementar g, calcular a
erosão geodésica dos dois, e complementar o resultado. Continuando dessa maneira, concluiremos
que
A outra propriedade é comprovada de forma semelhante.
Problema 9.35
(a) Os picos de ruído são mostrados de forma geral na Figura 9.35 (a), com outras possibilidades
intermediárias. A amplitude é irrelevante neste caso, apenas a forma dos picos de ruído é de
interesse. Para remover esses picos realiza-se uma abertura com um elemento estruturante cilíndrico
de raio superior a , como mostrado na Figura 9.35 (b). Observe que a forma do elemento
estruturante combina com a forma conhecida dos picos de ruído.
Problema 9.36
(a) Pinte os pixels da borda da imagem da mesma cor das partículas (branco). Chame o conjunto
resultante de pixels da fronteira B. Aplique o algoritmo do componente conectado (Seção
9.5.3). Todos os componentes conectados que contêm elementos de B são partículas que se fundiram
com a borda da imagem.
100
Capítulo 10
Soluções de problemas
Problema 10.1
Expanda f (x + Δx) em uma série de Taylor em x:
O incremento na variável espacial x foi definido na Seção 2.4.2 como 1, por isso, fazendo Δx = 1 e
mantendo somente os termos lineares, obtemos o resultado
que está de acordo com a Equação 10.2-1.
Problema 10.2
As máscaras teriam os coeficientes mostrados na Figura 10.2. Cada máscara produziria um valor de
zero quando centrada em segmento contínuo de tres pixels orientado na direção favorecida por ela. Por
outro lado, a resposta seria a + 2 quando a máscara fosse centrada em um intervalo de um pixel em um
segmento de três pixels orientado na direção favorecida pela máscara.
Problema 10.4
(a) As linhas eram mais espessas do que a largura das máscaras do detector de linhas. Assim, quando,
por exemplo, uma máscara estava centralizada na linha ela viu uma área constante e deu uma resposta
de 0.
101
Problema 10.5
(a) A Primeira linha na Figura 10.5 mostra uma imagem de degrau, inclinação e borda, um corte
horizontal através de seus centros. Da mesma forma, a segunda linha mostra o gradiente das imagens
correspondentes e cortes horizontais através de seus centros. As bordas finas escuras nas imagens
foram incluídas para maior clareza na definição das bordas das imagens; não fazem parte dos dados .
Problema 10.7
A Figura 10.7 mostra a solução.
102
Imagem
Corte horizontal
Primeira derivada
Segunda derivada
Figura 10.7
103
Problema 10.9
Primeiro considere as máscaras de Sobel das Figuras 10.14 e 10.15. Uma maneira simples de provar
que essas máscaras dão resultados isotrópicos para segmentos de borda orientados a múltiplos de 45º é
pela obtenção das respostas da máscara para os quatro segmentos de borda genéricos mostrados na
Figura 10.9, que são orientados a incrementos de 45º. O objetivo é mostrar que as respostas das
máscaras de Sobel são indistinguíveis para estas quatro bordas. Observamos por meio da Tabela 10.9
que este é o caso, que mostra a resposta de cada máscara de Sobel para os quatro segmentos de borda
genéricos. Vemos que em cada caso a resposta da máscara que corresponde à direção da borda é (4a -
4b), e a resposta da máscara da correspondente ortogonal é 0. A resposta das duas máscaras restantes é
(3a - 3b) ou (3b - 3a). O sinal de diferença não é significativo porque o gradiente é calculado elevando
ao quadrado ou pelo valor absoluto das respostas da máscara. A mesma linha de raciocínio se aplica às
máscaras de Prewitt.
Problema 10.11
(a) Os operadores são os seguintes (os números negativos são mostrados sublinhados):
111 110 101 011 111 110 101 011
000 101 101 101 000 101 101 101
111 011 101 110 111 011 101 110
Problema 10.13
(a) A média local em um ponto (x, y) em uma imagem é dada por
104
onde Sxy é a região na imagem circundada pela máscara média n × n quando esta for centrada em (x, y),
e zi são as intensidades dos pixels da imagem naquela região. A parcial
é então dada por
A primeira soma à direita pode ser interpretada como todos os pixels do segundo somatório menos os
pixels da primeira linha da máscara, além da linha pega pela máscara ao mover-se de (x, y) para (x + 1,
y). Assim, podemos escrever a equação anterior como
Essa expressão dá o valor da nas coordenadas (x, y) da imagem suavizada. Da mesma
forma,
A magnitude da borda da imagem correspondente à imagem suavizada F (x, y) é então dada por
105
Problema 10.14
(a) Procederemos da seguinte forma:
a quarta linha decorre do fato que
e
Problema 10.15
(b) A resposta é sim para as funções que satisfazem certas condições brandas e se o método de
interseção zero for baseado em operadores rotacionais, como a função LoG, e em um limiar de
0. Propriedades geométricas de interseção zero em geral são explicadas com algum detalhe no paper
106
intitulado "On Edge Detection", por V. Torre e T. Poggio, IEEE Trans. Pattern Analysis and Machine
Intell, v. 8, n. 2, 1986, p. 147-63. É uma indicação de leitura excelente para alunos de graduação
examinar esse título e tornarem-se familiarizados com os fundamentos de matemática de detecção de
bordas.
Problema 10.18
(a) A Equação 10.2-21 pode ser escrita da seguinte forma em separado
Da Equação 3.4-2 e da equação anterior, a convolução de G(x, y) e f(x, y) pode ser escrita como
onde a = (n - 1) / 2 e n é o tamanho da máscara de n × n obtida por amostragem na Equação 10.2-
21. A expressão entre colchetes é a convolução 1-D do termo exponencial, , com as linhas
f(x, y). Então, a soma o externa é a convolução de e-s 2/2σ2
com as colunas do resultado. Demonstrado
de outra maneira,
Problema 10.19
(a) Como mostra a Equação 10.2-25 as duas primeiras etapas do algoritmo podem ser resumidas em
uma equação:
107
Usando a definição do operador laplaciano, podemos expressar essa equação como
onde a segunda etapa decorre do Problema 10.18, com e .
Os termos dentro dos dois colchetes são os mesmos, portanto, são requeridas apenas duas convoluções
para implementá-los. Usando as definições na Seção 10.2.1, os parciais podem ser escritos como
e
O primeiro termo pode ser implementado via convolução com uma máscara de 1 × 3 com coeficientes,
[1 - 2 1], e a segunda com uma máscara de 3 × 1 com os mesmos coeficientes. Fazendo e
representar esses dois operadores máscara, teremos o resultado final:
que requer um total de quatro diferentes operações de convolução 1-D.
(b) Se usarmos o algoritmo como mencionado neste livro, envolver uma imagem M × N com uma
máscara n × n exigirá n2 × M × N multiplicações (veja a solução do Problema 10.18). Então a
convolução com uma máscara laplaciana 3 × 3 vai adicionar outras 9 × M × N multiplicações para um
total de (n2 + 9) × M × N multiplicações. Decompor uma convolução 2-D em 1-D requer 2nMN
multiplicações, como indicado na solução do Problema 10.18. Duas convoluções adicionais da
108
imagem resultante com as máscaras derivadas 3 × 1 e 1 × 3 acrescentam 3MN + 3MN = 6MN
multiplicações. A vantagem computacional é então
que é independente do tamanho da imagem. Por exemplo, para n = 25, A = 11, 32, assim, leva a ordem
de 11 vezes mais multiplicações se for usada a convolução direta 2-D.
Problema 10.21
As partes (a) a (c) são mostradas nas linhas de 2 a 4 da Figura 10.21.
Problema 10.22
(b) e
Problema 10.23
(a) O ponto 1 tem coordenadas x = 0 e y = 0. Substituindo na Equação 10.2-38 resulta ρ = 0, que,
demarcando como ρ versus θ, é uma linha reta.
(b) Apenas a origem (0, 0) produziria esse resultado.
(c) Em θ = +90◦, resulta da Equação 10.2-38, que x • (0) + y • (1) = ρ, ou y = ρ. Em θ = - 90º, x • (0) +
y • (-1) = ρ, ou y = ρ. Assim, é uma adjacência reflexiva.
Problema 10.26
A essência do algoritmo é calcular em cada etapa o valor médio, , de todos os pixels cujas
intensidades forem menores que ou iguais ao limiar anterior e, do mesmo modo, o valor médio, ,
de todos os pixels com valores que excedam esse limiar. Igualar pi = ni / n indica o componente i-
ésimo do histograma da imagem, onde ni é o número de pixels com intensidade i, e n é o número total
de pixels na imagem. Os valores válidos de i estão na faixa entre 0 ≤ i ≤ L -1, onde L é o número de
intensidades e i é um inteiro. Pode se calcular as médias em qualquer etapa k do algoritmo:
109
onde
e
O termo I(k - 1) é o menor inteiro menor que ou igual a T (k -1) e T (0) dado. O próximo valor do
limiar será então
110
Problema 10.27
Conforme apresentado na Seção 10.3.2, assumimos que o limiar inicial é escolhido entre as
intensidades mínima e máxima da imagem. Para iniciar, considere o histograma na Figura 10.27. Ele
mostra o limiar da k-ésima etapa iterativa e o fato que a média m1(k + 1) será calculada usando
intensidades maiores que T (k) vezes os valores de seu histograma. Da mesma forma, m2 (k + 1) será
calculado usando valores de intensidades menores que ou iguais a T (k) vezes seus valores de
histograma. Então, . A prova consiste de
duas partes. Em primeiro lugar, provamos que o limiar está entre 0 e L - 1. Em seguida, provamos que
o algoritmo converge para um valor entre esses dois limites.
Para provar que o limiar está limitado, escrevemos T(k + 1) = 0,5 [m1(k + 1) + m2(k + 1)]. Se m2(k + 1)
= 0, então m1(k + 1) será igual à média da imagem M, e T(k + 1) será igual a M/2 que é menor que L -
1. Se m2(k + 1) for zero, vale a mesma condição. Ambos m1 e m2 não podem ser zero
simultaneamente, de modo que T(k + 1) será sempre maior que 0 e menor do que L - 1.
Para provar a convergência, temos que considerar três condições possíveis:
1. T(k + 1) = T(k), no caso em que o algoritmo tenha convergido.
2. T(k + 1) < T(k), caso em que o limiar move para a esquerda.
3. T(k + 1) > T (k), caso em que o limiar move para a direita.
No caso (2), quando o valor limiar move para a esquerda, m2 irá diminuir ou permanecer o mesmo e
m1 também irá diminuir ou permanecer o mesmo (o fato de m1 diminuir ou permanecer o mesmo não
necessariamente é evidente. Se não consegue perceber isso, desenhe um histograma simples e se
111
convença observando o que ele faz), dependendo de quanto o limiar se moveu e dos valores do
histograma. No entanto, nenhum limiar pode aumentar. Se nem a média muda, então T(k + 2) será
igual a T(k + 1) e o algoritmo irá parar. Se uma ou outra (ou ambas) as médias diminuírem, então T(k
+ 2) < T(k + 1), e o novo limiar se moverá mais para a esquerda. Isso fará que apenas as condições
recém indicadas aconteçam de novo, então a conclusão é que, se os limiares começarem a se mover
para a esquerda, sempre vão mover para a esquerda, e o algoritmo eventualmente irá parar com um
valor T > 0, que sabemos ser o limite inferior de T. Como o limiar sempre diminui ou para de mudar,
as oscilações são impossíveis, então é garantido que o algoritmo convirja.
O caso (3) faz que o limiar se mova para a direita. Um argumento semelhante à discussão anterior
estabelece que se o limiar começar a se mover para a direita, ou irá convergir ou continuará se
movendo para a direita e eventualmente irá parar com um valor inferior a L - 1. Como o limiar sempre
aumenta ou para de mudar, as oscilações são impossíveis, então é garantido que o algoritmo convirja.
Problema 10.29
O valor do limiar de convergência é independente do valor inicial se o valor inicial do limiar for
escolhido entre as intensidades mínima e máxima da imagem (sabemos do Problema 10.27 que o
algoritmo converge nessa condição). O limiar final não será independente do valor inicial escolhido
para T se esse valor não satisfizer essa condição. Por exemplo, considere uma imagem com o
histograma na Figura 10.29. Suponha que selecionamos o limiar inicial T (1) = 0. Então, na próxima
etapa iterativa, m2(2) = 0, m1(2) = M e T (2) = M/2. Devido a m2 (2) = 0, segue-se que m2(3) = 0, m1(3)
= M e T (3) = T (2) = M/2. Quaisquer iterações seguintes produzirão o mesmo resultado, então o
112
algoritmo converge com o valor errado do limiar. Se tivéssemos começado com Imin T <(1)< Imax, o
algoritmo teria convergido corretamente.
Problema 10.30
(a) Para um histograma uniforme podemos visualizar os níveis de intensidade como pontos de unidade
de massa ao longo do eixo intensidade do histograma. Quaisquer valores m1(k) e m2(k) são as médias
dos dois grupos de valores de intensidade G1 e G2. Como o histograma é uniforme, estes são os centros
de massa de G1 e G2. Sabemos da solução do Problema 10.27 que se T inicia movendo-se para a
direita, sempre irá mover nessa direção, ou parar. O mesmo vale para o movimento para a
esquerda. Agora, presuma que T(k) chegou ao centro de massa (média intensidade). Porque
todos os pontos têm peso igual (lembre-se de que o histograma é uniforme), se T(k +1) mover para a
direita G2 vai adquirir, digamos, Q novos pontos. Mas G1 vai perder o mesmo número de pontos, então
a soma m1 + m2 será a mesma e o algoritmo irá parar.
Problema 10.32
(a)
utilizou-se o fato de que mG = P1m1 + P2m2 e P1 + P2 = 1. Isso prova a primeira parte da Equação 10.3-
15.
(b) Em primeiro lugar, temos que demonstrar que
Fazemos isso da seguinte forma:
113
Então,
Problema 10.35
(a) Façamos que R1 e R2 indiquem as regiões cujas intensidades dos pixels sejam maiores do que T e
menores ou iguais a T, respectivamente. O limiar T é simplesmente um valor de intensidade, por isso é
mapeado pela função de transformação para o valor T’ = 1 - T. Valores de R1 são mapeados para R’1 e
valores de R2 são mapeados para R’2. O mais importante é que todos os valores R’1 estão abaixo de T’
e todos os valores de R’2 são iguais ou estão acima de T’. O sentido da inequação se inverteu, mas a
separabilidade das intensidades nas duas regiões foi preservada.
(b) A solução em (a) é um caso especial de um problema mais genérico. Um limiar é simplesmente um
local na escala de intensidade. Qualquer função de transformação que preserve a ordem das
intensidades irá preservar a separabilidade estabelecida pelo limiar. Assim, qualquer função
monotônica (crescente ou decrescente) irá preservar essa ordem. O valor do novo limiar é
simplesmente o antigo limiar processado com a função de transformação.
114
Problema 10.37
(a) A primeira coluna seria preta e todas as outras seriam brancas. O motivo: um ponto na imagem
segmentada é definido como 1 se o valor da imagem nesse ponto exceder b naquele ponto. Mas b = 0,
então todos os pontos da imagem maiores que 0 serão definidos como 1 e todos os outros pontos serão
definidos como 0. Mas os únicos pontos na imagem que não excedem 0 são os pontos que são 0, ou
seja, os da primeira coluna.
Problema 10.39
A divisão da região é mostrada na Figura 10.39 (a). A árvore quaternária correspondente é mostrada
na Figura 10.39 (b).
Problema 10.41
(a) Os elementos de T [n] são as coordenadas dos pontos na imagem abaixo do plano g (x, y) = n, onde
n é um inteiro que representa uma etapa dada na execução do algoritmo. Como n nunca diminui, o
conjunto de elementos em T [n - 1] é um subconjunto dos elementos em T [n]. Além disso,
observamos que todos os pontos abaixo do plano Gg(x, y) = n - 1 estão também abaixo do plano g (x,
y) = n, então os elementos de T [n] nunca são substituídos. Da mesma forma, Cn(Mi) é formado pela
interseção de C (Mi) e T [n], onde C (Mi) (cujos elementos nunca mudam) é o conjunto de coordenadas
de todos os pontos da bacia de captação associados ao mínimo regional Mi. Como os elementos de C
(Mi) nunca mudam, e os elementos de T[n] nunca são substituídos, decorre que os elementos em Cn
(Mi) também nunca serão substituídos. Além disso, vemos que Cn-1 (Mi) ⊆ Cn (Mi).
115
Problema 10.43
A primeira etapa da aplicação do algoritmo de segmentação de bacias hidrográficas é construir uma
barragem de altura max + 1 para evitar que a ascensão da água escape das extremidades da função,
como mostrado na Figura 10.43 (b). Para uma função imagem construiríamos uma caixa de uma altura
max + 1 em torno de sua margem. O algoritmo é inicializado estabelecendo C [1] = T [1]. Neste caso,
T [1] = {g (2)}, como mostrado na Figura 10.43 (c) (observe o nível da água). Há apenas um
componente conectado neste caso: Q [1] = {q1}= {g (2)}.
Em seguida, façamos n = 2 e, como mostrado na Figura 10.43 (d), T [2] = {g (2), g (14)} e Q [2] =
{q1, q2}, onde, por razões de clareza, componentes conectados diferentes são separados por ponto e
vírgula. Começamos a construção de C [2], considerando cada componente conectado em Q
[2]. Quando q = q1, o termo q ∩ C [1] é igual a {g (2)}, então a condição 2 é satisfeita e, portanto, C
[2] = {g (2)}. Quando q = q2, q ∩ C [1] = Ø (conjunto vazio), então a condição 1 é satisfeita e
incorporamos q em C [2], que então se torna C [2] = {g (2); g (14)} onde, como acima, componentes
diferentes conectados são separados por ponto e vírgula.
Quando n = 3 [Figura 10.43(e)], T [3] = {2,3,10,11,13,14} eQ [3] = {q1, q2, q3} = {2,3;10,11;13,14},
onde, para simplificar a notação fazemos k indicar g (k). Procedendo como acima, q1 ∩ C [2] = {2}
satisfaz a condição 2, então q1 está incorporado no novo conjunto para produzir C [3] = {2,3;14}. Da
mesma forma, q2 ∩ C [2] = Ø satisfaz a condição 1 e C [3] = {2,3;10,11;14}. Finalmente, q3 ∩ C [2] =
{14} satisfaz a condição 2 e C [3] = {2,3;10,11;13,14}. É fácil verificar que C [4] = [3] =
{2,3;10,11;13,14}.
116
Quando n = 5 [Figura 10.43 (f)], temos,T [5] = {2,3,5,6,10,11,12,13,14} e Q [5] = {q1;q2;q3} =
{2,3;5,6; 10,11,12,13,14} (note a fusão de dois componentes conectados anteriormente distintos). É
fácil verificar que q1 ∩ C [4] satisfaz a condição 2 e que q2 ∩ C [4], satisfaz a condição 1.
Prosseguindo com estes dois componentes conectados exatamente como descrito acima resulta C [5] =
{2, 3; 5, 6; 10,11;13,14} até este ponto.
Tudo fica mais interessante ao considerar q3. Agora, q3 ∩ C [4] = {10,11;13,14}, que, por conter dois
componentes conectados de C[4], satisfaz a condição 3. Como mencionado anteriormente, esta é uma
indicação de que água de duas bacias diferentes se fundiram e uma barragem deverá ser construída
para evitar esta condição. Construir barragens não é nada além do que separar q3 em dois componentes
conectados originais. Neste caso particular, isso é feito pela barragem mostrada na Figura 10.43(g),
então agora q3 = {q31;q32} = {10.11;13,14}. Então, q31 ∩ C [4] e q32 ∩ C [4], cada uma satisfaz a
condição 2 e temos o resultado final para n = 5, C[5] = {2,3;5,6;10,11;13,14}.
Continuar desta maneira recém explicada produz o resultado da segmentação final mostrado na
Figura 10.43(h), onde as bordas são visíveis (de cima), logo acima da linha de água. A última etapa de
pós-processamento eliminaria as paredes da barragem exterior para produzir as bordas interiores de
interesse.
Problema 10.45
(a) Verdadeiro, supondo que o limiar não seja maior do que todas as diferenças encontradas à medida
que o objeto se move. A maneira mais fácil de verificar isso é desenhar uma simples imagem de
referência, tal como o retângulo branco sobre um fundo preto. Deixe que este retângulo seja o objeto
que se move. Como o valor absoluto da imagem ADI em qualquer local, é a diferença absoluta entre a
referência e a nova imagem. É fácil verificar que como o objeto da área de entrada que é o fundo na
imagem de referência, a diferença absoluta mudará de zero para não zero na nova área ocupada pelo
objeto em movimento. Assim, enquanto o objeto se move, a dimensão da ADI absoluta crescer.
117
Problema 10.47
Lembre-se de que a velocidade é um vetor cuja magnitude é a rapidez. A função é um registro
unidimensional da posição do objeto em movimento como função do tempo (frames por segundo). O
valor da velocidade (rapidez) é determinado extraindo a primeira derivada dessa função. Para
determinar se a velocidade é positiva ou negativa em um momento específico, n, calculamos a
aceleração instantânea (taxa de variação de velocidade) naquele ponto, ou seja, computamos a segunda
derivada de . Visto de outra forma, vamos determinar a direção calculando a derivada da derivada
de gx. Mas, a derivada em um ponto é simplesmente a tangente naquele ponto. Se a tangente tiver
inclinação positiva, a velocidade é positiva, caso contrário é negativa ou zero. Devido a ser uma
quantidade complexa, sua tangente é dada pela razão de sua parte imaginária em relação à sua parte
real. Esse índice é positivo quando S1x e S2X têm o mesmo sinal, comocomeçamos a provar.
Problema 10.49
(a) Dado que 10% da área da imagem na direção horizontal é ocupada por uma bala de 2,5 cm de
comprimento, como o dispositivo de imagem é quadrado (256 × 256 elementos), a câmera olha para
uma área de 25 cm × 25 cm, desde que não tenha distorções ópticas. Assim, a distância entre os pixels
é 25/256 = 0,098 cm/pixel. A velocidade máxima da bala é 1000 m/s. = 100,000 cm/s. Nessa
velocidade, a bala irá percorrer 100 000/0,98 = 1,02 × 106 pixels/s. É necessário que a bala não
percorra mais que um pixel durante a exposição. Ou seja, (1,02 × 106 pixels/s) × K s ≤ 1 pixel. Assim,
K ≤ 9,8 × 10-7 segundos.
118
Capítulo 11
Soluções de problemas
Problema 11.1
(a) A chave para este problema é reconhecer que o valor de cada elemento em um código de cadeia é
relativo ao valor de seu antecessor. O código para um limite traçado de forma consistente (por
exemplo, no sentido horário) é um conjunto circular único de números. Começar a partir de locais
diferentes nesse conjunto não muda a estrutura da sequência circular. Selecionar o menor inteiro como
ponto de partida simplesmente identifica o mesmo ponto na sequência. Mesmo se o ponto de partida
não for único, esse método ainda daria uma sequência única. Por exemplo, a sequência 101010 tem
três possíveis pontos de partida, mas todos eles produzem o mesmo menor inteiro 010101.
Problema 11.3
(a) A abordagem rubber-band (do elástico) força o polígono a ter vértices em cada inflexão da parede
celular. Ou seja, os locais dos vértices são fixados pela estrutura das paredes internas e externas. Isso
produz o polígono de perímetro mínimo para qualquer configuração dada da parede devido aos
vértices serem unidos por linhas retas.
Problema 11.4
(a) Quando o vértice B é espelhado, coincide com os dois vértices brancos dos cantos, então se torna
colinear com eles. O algoritmo ignora vértices colineares, então não se detecta o pequeno recuo.
(b) Quando o recuo é mais profundo do que um pixel (mas ainda 1 pixel amplo), temos a situação
mostrada na Figura 11.4. Note que o vértice B cruza após o espelhamento.
119
Referindo-se à figura do fundo, quando o algoritmo alcançar o vértice 2, o vértice 1 será identificado
como o vértice de MPP, ou seja, de polígono de perímetro máximo, de modo que o algoritmo será
inicializado nessa etapa. Devido à inicialização, o vértice 2 é alcançado novamente. Será colinear com
WC e VL, assim BC será fixado no local do vértice 2. Quando o vértice 3 for alcançado, sgn(VL, WC, V3)
será 0, então BC será fixado no vértice 3. Quando o vértice 4 for alcançado, sgn(1, 3, 4) será negativo,
de modo que VL será fixado no vértice 3 e o algoritmo será reinicializado. O vértice 2 nunca se tornará
um vértice de MPP pois nunca será alcançado novamente. O próximo vértice de MPP a ser alcançado
será o 4. Por isso, recuos de 2 pixels ou superiores em profundidade e 1 pixel de largura serão
representados pela sequência 1-3-4 na segunda figura. Assim, o algoritmo resolve o cruzamento
causado pelo espelhamento dos dois vértices B, mantendo apenas um vértice. Esse é um resultado
genérico para 1 pixel de largura e 2 pixels (ou mais) intrusões de profundidade.
Problema 11.5
(a) O polígono resultante deverá conter todos os pixels de fronteira.
Problema 11.6
(a) A solução é mostrada na Figura 11.6 (b).
120
Problema 11.7
(a) Da Figura 11.7(a), vemos que a distância desde a origem até o triângulo é dada por
121
onde D0 é a distância perpendicular da origem para um dos lados do triângulo, e D = D0/ cos (60◦) =
2D0. Uma vez dadas as coordenadas dos vértices do triângulo, a determinação da equação de cada
linha reta é um problema simples, e D0 (que é o mesmo para as três linhas retas) decorre da geometria
elementar.
Problema 11.8
As soluções são mostradas na Figura 11.8.
Problema 11.9
(a) No primeiro caso, N(p) = 5, S(p) = 1, p2 • p4 • p6 = 0, e p4 • p6 • p8 = 0, então a Equação 11.1-4
foi satisfeita e p é marcado para exclusão. No segundo caso, N(p) = 1, então a Equação 11.1-4 foi
violada e p ficou inalterado. No terceiro caso p2 • p4 • p6 = 1 e p4 • p6 • p8 = 1, então as condições (c) e
(d) da equação 11.1-4 foram violadas e p ficou inalterado. No quarto caso, S(p) = 2, então a condição
(b) foi violada e p ficou inalterado.
Problema 11.10
(a) O resultado é mostrado na Figura 11.10 (b).
Problema 11.11
(a) O número de símbolos na primeira diferença é igual ao número de segmentos primitivos no limite,
então a ordem da forma é 12.
Problema 11.14
A média é suficiente.
122
Problema 11.16
Este problema pode ser resolvido por meio de dois descritores: orifícios e deficiência convexa (veja a
Seção 9.5.4 sobre o casco convexo e a deficiência convexa de um conjunto). O processo de decisão
pode ser resumido na forma de uma simples decisão, como segue: se o caracter tiver dois orifícios, é
um 8. Se tiver um orifício, é um 0 ou um 9. Caso contrário, é 1 ou X. Para diferenciar entre 0 e 9
calculamos a deficiência convexa. A presença de uma deficiência significante (digamos, possuir uma
área superior a 20% da área de um retângulo que envolve o caracter) significa um 9, caso contrário
podemos classificar o caracter como 0. Seguimos um procedimento semelhante para separar 1 de x. A
presença de uma deficiência convexa com quatro componentes cujos centroides estão localizados
aproximadamente nos quadrantes norte, leste, oeste e leste do caracter, indica que ele é um X. Caso
contrário, dizemos que o caracter é 1. Essa é a abordagem básica. A implementação desta técnica em
um ambiente real de reconhecimento de caracteres tem que levar em conta outros fatores tais como
pequenos componentes múltiplos na deficiência convexa devido ao ruído, diferenças de orientação,
loops abertos, e assim por diante. No entanto, o material nos capítulos 3, 9 e 11 fornece uma base
sólida para formulação de soluções.
Problema 11.17(b) Normalize a matriz pela divisão de cada componente por 19 600 + 200 + 20 000
= 39 800:
assim p11 = 0,4925, p12 = 0,005, p21 = 0, e p22 = 0,5025.
Problema 11.19
(a) A imagem será
123
Seja z1 = 0 e z2 = 1, como existem apenas dois níveis de intensidade, a matriz G é de ordem 2 × 2. O
elemento G11 é o número de pixels com valor 0 localizado um pixel para a direita de um 0. Por
inspeção, G11 = 0. Da mesma forma, G12 = 10, G21 = 10, e G22 = 0. O número total de pixels que
satisfaz o predicado P é 20, portanto, a matriz de co-ocorrência normalizada é
Problema 11.21
O erro quadrático médio, dado pela Equação 11.4-12, é a soma dos autovalores cujos autovetores
correspondentes não são utilizados na transformação. Neste caso específico, os quatro autovalores
menores são aplicáveis (veja a Tabela 11.6), então é a média do erro ao quadrado
O erro máximo ocorre quando K = 0 na Equação 11.4-12, que depois é a soma de todos os autovalores,
ou 15 039 neste caso. Assim, o erro inerente à utilização de apenas dois autovetores correspondentes
aos maiores autovalores é de apenas 11,5% do erro total possível.
Problema 11.23
Quando o limite é simétrico acerca dos eixos menor e maior e os dois eixos se cruzam no centroide da
fronteira.
Problema 11.25
Podemos calcular a medida da textura usando a expressão
onde é a variação de intensidade calculada em uma vizinhança de (x, y). O tamanho da
vizinhança deve ser suficientemente grande para conter amostras bastantes para ter uma estimativa
124
estável da média e da variância. Vizinhanças de tamanho 7 × 7 ou 9 × 9 são, de modo geral,
apropriadas para casos de baixo ruído tal como este.
Devido à variância da bolacha (wafer) normal ser de 400, podemos obter um valor normal para R(x, y)
usando na equação acima. Uma região anormal terá uma variação de cerca de (50)² = 2
500 ou superior, gerando um maior valor de R(x, y). O procedimento então é calcular R(x, y) em cada
ponto (x, y) e rotular esse ponto como 0 se ele for normal e 1, se não for. Ao final deste procedimento
olhamos para os clusters de 1’s utilizando, por exemplo, componentes conectados (veja a Seção 9.5.3
sobre cálculo de componentes conectados). Se a área (número de pixels) de qualquer componente
conectado exceder 400 pixels, podemos classificar a amostra como defeituosa.
125
Capítulo 12
Soluções de problemas
Problema 12.2
Da definição de distância euclidiana,
Como Dj (x) é não-negativo, escolher o menor Dj(x) é o mesmo que escolher o menor D2
j(x), onde
Notamos que o termo xTx é independente de j (ou seja, é uma constante no que diz respeito a j em
D2
j(x), j = 1, 2,. . .). Assim, a escolha do mínimo de D2
j(x) é equivalente a escolher máximo de
.
Problema 12.4
A solução é mostrada na Figura 12.4, onde os x são tratados como tensões e os y indicam
impedâncias. Da teoria básica de circuito, as correntes I são o produto das tensões vezes as
impedâncias. O sistema opera selecionando a corrente máxima, que corresponde à melhor opção e,
portanto,
126
realiza o reconhecimento de caracteres pela abordagem da distância mínima. A velocidade de resposta
é instantânea para todos os efeitos práticos.
Problema 12.6
A solução para a primeira parte deste problema é baseada na possibilidade de extração de
componentes conectados (veja os capítulos 2 e 11) e, em seguida, determinar se o componente
conectado é convexo ou não (ver Capítulo 11). Uma vez extraídos todos os componentes conectados,
realizamos uma verificação de convexidade em cada um deles, rejeitando os que não forem
convexos. Tudo o que resta depois disso é determinar se as bolhas restantes estão completas ou
incompletas. Para fazer isso, a região composta das linhas e colunas extremas da imagem é declarada
uma região de 1's. Em seguida, se o pixel a pixel AND dessa região com uma bolha particular resultar
pelo menos uma vez em um 1, decorre que a fronteira real toca essa bolha, e a bolha é chamada de
incompleta. Quando apenas um único pixel em uma bolha produz um AND de 1, temos um resultado
marginal em que apenas um pixel em uma bolha toca a fronteira. Podemos declarar arbitrariamente
que a bolha esteja incompleta ou não. Do ponto de vista de implementação, é muito mais simples ter
um procedimento que chama a bolha de incompleta toda a vez que a operação AND produz um ou
mais resultados avaliados em 1.
Após rastrear as bolhas utilizando o método que acabamos de discutir, elas precisam ser classificadas
em uma das três classes dadas no enunciado do problema. Efetuamos a classificação baseados em
vetores da forma x = (x1, x2)T, onde x1 e x2 são, respectivamente, os comprimentos do maior e menor
eixo de uma bolha elíptica, o único tipo restante após triagem. Alternativamente, poderíamos
127
usar os eixos próprios para a mesma finalidade. (Veja a Seção 11.2.1 sobre como obter os maiores
eixos ou o fim da Seção 11.4 sobre os eixos próprios.) O vetor médio de cada classe necessária para
implementar um classificador de distância mínima é dado no enunciado do problema como a extensão
média de cada um dos dois eixos para cada classe de bolha. Se não fossem dados, poderiam ser
obtidos pela mensuração do comprimento dos eixos para elipses completas que tenham sido
classificadas, a priori, como pertencentes a cada uma das três classes. O conjunto dado de elipses
constituiria assim um conjunto de treinamento e o aprendizado seria o cálculo dos eixos principais
para todas as elipses de uma classe então obter a média. Deveria ser repetido para cada classe. Um
diagrama de bloco delineando a solução para este problema é muito simples.
Problema 12.8
(a) Como no Problema 12.7,
Como as matrizes de covariância não são iguais, decorre da Equação 12.2-26, que
128
e
onde o termo não foi incluído porque nesse caso é o mesmo para ambas as funções de
decisão. A equação de fronteira de decisão de Bayes é
(b) A Figura 12.8 mostra um gráfico da fronteira.
Problema 12.10
A partir da teoria de probabilidade básica,
Para qualquer padrão que pertença à classe . Por isso,
Substituindo a fórmula nesta equação, resulta
129
Como o argumento do somatório é positivo, p(c) será maximizado maximizando p(x/ωj)p(ωj) para
cada j. Ou seja, se para cada x calcularmos p(x/ωj)p(ωj) para j = 1, 2, ..., W, e cada vez usarmos o
maior valor como base para selecionar a classe da qual veio x, então p(c) será maximizado por este
procedimento. Uma vez que p(e) = 1-p (c), a probabilidade de erro será minimizada nesse
procedimento.
Problema 12.12
Começamos extraindo as derivadas parciais de J com relação a w:
onde, por definição, sgn (wTy) = 1 se w
Ty > 0, e, caso contrário, sgn (w
Ty) = -1. Substituindo a
derivada parcial na expressão geral dada no enunciado do problema, resulta
onde y(k) é o padrão de treinamento que está sendo considerado na k-ésima etapa
iterativa. Substituindo a definição da função sgn nesse resultado, produz
onde c> 0 e w(1) é arbitrário. Esta expressão está de acordo com a formulação dada no enunciado do
problema.
Problema 12.14
A função única de decisão que implementa o classificador de distância mínima para duas classes é da
forma
130
Assim, para um vetor padrão particular x, quando dij(x)> 0, x será atribuído à classe e, quando
dij(x)< 0, x será atribuído à classe . Os valores de x para os quais dij(x)=0 estão no limite
(hiperplano) que separa as duas classes. Fazendo w = (mi - mj) e ,
podemos expressar a função de decisão acima na forma
Essa é reconhecida como uma função de decisão linear com n dimensões, a qual é implementada por
uma rede neural de camada única com coeficientes
e
Problema 12.16
(a) Quando P(ωi) = P(ωj) e C = I.
(b) Não. O classificador de distância mínima implementa uma função de decisão que é a mediatriz da
reta que une as duas médias. Se a densidade de probabilidade for conhecida, é garantido que o
classificador de Bayes implemente uma ótima função de decisão no sentido da perda média mínima. A
regra delta generalizada para a formação de uma rede neural não diz nada sobre esses dois critérios, de
modo que não se pode esperar produzir funções de decisão nos problemas 12.14 ou 12.15.
Problema 12.18
Tudo que é necessário é criar vetores de treinamento da forma x = (x1,x2)T para cada classe, onde x1 é o
comprimento do maior eixo e x2 é o comprimento do menor eixo das bolhas contidas no conjunto de
treinamento. Esses vetores seriam então utilizados para treinar o uso de uma rede neural, por exemplo,
a regra delta generalizada (devido aos padrões estarem em 2D, é útil recordar aos alunos que a rede
neural pode ser concebida por meio de inspeção no sentido de que as classes poderiam ser
representadas graficamente, obtida a fronteira de decisão de complexidade mínima e, em seguida, seus
coeficientes usados para especificar a rede neural. Neste caso, as classes estariam muito distantes com
131
relação à propagação, então é mais provável que uma rede de camada única implementando uma
função de decisão linear teria o mesmo efeito.)
Problema 12.20
A primeira parte da Equação 12.3-3 foi comprovada observando que o grau de semelhança, k, é não
negativo, então D(A, B) = 1/k ≥ 0. Da mesma forma, a segunda parte decorre do fato que K é infinito
quando (e somente quando) as formas forem idênticas.
Para comprovar a terceira parte, usamos a definição de D para escrever
como
ou, equivalentemente,
onde kij é o grau de semelhança entre a forma i e a forma j. Lembre-se da definição que k é a maior
ordem para a qual os números forma da forma i e forma j ainda coincidem. Como ilustra a Figura
12.24(b), esse é o ponto no qual a imagem "separa" à medida que avançamos mais abaixo da árvore
(note que k aumenta
132
à medida que avançamos mais abaixo na árvore). Provamos que kac ≥ min[kab, kbc] por
contradição. Para que kac ≤ min [kab, kbc] se mantenha, a forma A tem que se separar da forma C antes
(1) a forma A se separa da forma B, e (2), antes a forma B se separa da forma C, caso contrário kab ≤
kac ou kbc ≤ kac, que automaticamente viola a condição kac < min [kab, kbc]. Mas, se (1) tem que se
manter, então a Figura P12.20 mostra o único caminho em que A pode se separar de C antes de se
separar de B. Isso, no entanto, viola (2), o que significa que a condição kac < min [kab, kbc] é violada
(também podemos ver isso na figura observando que kac = kbc, que desde que kab < kbc, viola a
condição). Usamos um argumento semelhante para mostrar que se (2) se mantém, então (1) é
violado. Assim, concluímos que é impossível que a condição kac < min [kab, kbc] se mantenha,
provando assim que kac ≥ min[kab, kbc] ou, equivalentemente, que a D(A, C) ≤ max [D(A, B), D(B, C)].
133