capítulo 4 classificação e extração de características...

20
Capítulo 4 Classificação e Extração de Características Discriminantes de Imagens 2D de Ultrassonografia Mamária Albert da Costa Xavier * , João Ricardo Sato, Gilson Antônio Giraldi, Paulo Sérgio Rodrigues e Carlos Eduardo Thomaz Resumo: Os estudos relacionados `a detec¸c˜ao e ao tratamento de anceres por meio de imagens, incluindo o cˆancer de mama, vˆ em se aperfei¸coando ano ap´ os ano. Este cap´ ıtulo aborda a an´ alise discri- minante de tumores mam´arios em imagens 2D ultrassonogr´aficas. No processo de an´alise destas imagens, m´ etodos estat´ ısticos univa- riados e multivariados s˜ao investigados com o objetivo de extrair informa¸c˜oes discriminantes para fins de classifica¸c˜ ao. Emcar´ater complementar, este tipo de metodologia evidencia tamb´ em as di- feren¸casestat´ ısticas mais significativas entre os tumores, indicando no espa¸co original das imagens os casos mais simples e dif´ ıceis de classifica¸c˜ ao. Palavras-chave: Imagem de ultrassom da mama, Extra¸c˜ao esta- ıstica de caracter´ ısticas discriminantes. Abstract: Research on detection and treatment of cancer using images, including breast cancer, has improved in the last years. This work addresses the problem of computer-aided breast cancer diagnosis in 2D ultrasound images by carrying out a statistical dis- criminant analysis of mammary tumors. To analyze the images, univariate and multivariate statistical methods have been explored with the aim of extracting discriminant information for classifica- tion purposes. Additionally, our approach highlights the most sta- tistically significant differences between the tumors, ranking in the original image space the simplest and most difficult cases of classi- fication. Keywords: Breast ultrasound image, Statistical extraction of dis- criminant features. * Autor para contato: [email protected] Neves et al. (Eds.), Avanços em Visão Computacional (2012) DOI: 10.7436/2012.avc.4 ISBN 978-85-64619-09-8

Upload: dokien

Post on 15-Nov-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Capítulo 4

Classificação e Extração de CaracterísticasDiscriminantes de Imagens 2Dde Ultrassonografia Mamária

Albert da Costa Xavier∗, João Ricardo Sato, Gilson Antônio Giraldi,Paulo Sérgio Rodrigues e Carlos Eduardo Thomaz

Resumo: Os estudos relacionados a deteccao e ao tratamento decanceres por meio de imagens, incluindo o cancer de mama, vem seaperfeicoando ano apos ano. Este capıtulo aborda a analise discri-minante de tumores mamarios em imagens 2D ultrassonograficas.No processo de analise destas imagens, metodos estatısticos univa-riados e multivariados sao investigados com o objetivo de extrairinformacoes discriminantes para fins de classificacao. Em caratercomplementar, este tipo de metodologia evidencia tambem as di-ferencas estatısticas mais significativas entre os tumores, indicandono espaco original das imagens os casos mais simples e difıceis declassificacao.

Palavras-chave: Imagem de ultrassom da mama, Extracao esta-tıstica de caracterısticas discriminantes.

Abstract: Research on detection and treatment of cancer usingimages, including breast cancer, has improved in the last years.This work addresses the problem of computer-aided breast cancerdiagnosis in 2D ultrasound images by carrying out a statistical dis-criminant analysis of mammary tumors. To analyze the images,univariate and multivariate statistical methods have been exploredwith the aim of extracting discriminant information for classifica-tion purposes. Additionally, our approach highlights the most sta-tistically significant differences between the tumors, ranking in theoriginal image space the simplest and most difficult cases of classi-fication.

Keywords: Breast ultrasound image, Statistical extraction of dis-criminant features.

∗Autor para contato: [email protected]

Neves et al. (Eds.), Avanços em Visão Computacional (2012) DOI: 10.7436/2012.avc.4 ISBN 978-85-64619-09-8

66 Xavier et al.

1. Introdução

Na area medica, a classificacao de imagens e utilizada para auxiliar nodiagnostico de varios tipos de doenca, incluindo o cancer de mama. Ocancer de mama tem registrado crescimento muito preocupante nos ultimosanos e se posiciona como maior causador de morte por cancer na populacaofeminina mundial. No Brasil, 33 mulheres morrem por dia em decorrenciado mesmo (INCA, 2009).

Neste contexto, os recursos computacionais atuais e o processamentode imagens, aliados a estatıstica, podem contribuir muito para o esclareci-mento e um diagnostico mais preciso do cancer de mama. Ha um crescenteavanco nos metodos de diagnostico por imagem incluindo a utilizacao deultrassom. Na imaginologia mamaria, a ultrassonografia representa umamodalidade de diagnostico muito significativa por ter menor custo e aindaevitar o contato prejudicial dos pacientes com radiacao (Kopans, 2000).

Este trabalho tem como objetivo principal analisar as alteracoes morfo-logicas estatisticamente relevantes para classificacao das imagens de tumorde mama. Tal analise e essencial para o estudo das diferencas entre osgrupos de tumores benignos e malignos. Sao realizadas analises no espacode caracterısticas, definido por quantidades geometricas e de textura, bemcomo no espaco de imagens, comparando-se os resultados.

O capıtulo esta dividido em 5 secoes. A proxima secao, Secao 2, contex-tualiza o problema abordando assuntos relacionados a patologia da mamae ao diagnostico do cancer de mama com imagens ultrassonograficas. ASecao 3 apresenta a base teorica que apoia o desenvolvimento do capıtulo,descrevendo os metodos estatısticos univariado e multivariado. Os experi-mentos realizados e os dados das imagens sao apresentados na Secao 4 pormeio da descricao dos recursos utilizados e das tecnicas adotadas na analisedas imagens ultrassonograficas de tumores mamarios. A Secao 5 contem-pla a analise dos resultados e, por fim, a Secao 6 conclui este capıtuloresumindo e discutindo os principais resultados obtidos.

2. Contextualização do Problema

O cancer de mama e a principal causa mundial de morte nao previsıvel porcancer. A estimativa para novos casos e preocupante. No Brasil, segundoo INCA (Instituto Nacional de Cancer1), a previsao para 2010 foi de 49240novos casos representando aproximadamente 25,5% de incidencia perantetodas as ocorrencias de cancer, estimadas em 192.590. Na Figura 1 pode-seobservar as estimativas para o ano de 2010 de numero de casos novos porcancer segundo localizacao primaria. Ainda segundo o INCA, 33 mulheresmorrem por dia no Brasil em decorrencia do cancer de mama.

1 http://www.inca.gov.br/estimativa/2010/estimativa20091201.pdf

Classificação e extração de características discriminantes de imagens 2D 67

Figura 1. Distribuicao das estimativas de cancer de mama no Brasil para oano de 2010 (INCA, 2009, p 42).

Em paıses desenvolvidos como, por exemplo, nos Estados Unidos, maisde 180000 mulheres sao diagnosticadas com cancer de mama invasivo anu-almente. Em complemento, sao detectados aproximadamente 25000 novoscasos de carcinoma ductal e lobular in situ (ACS, 2010). Notadamenteos 25000 casos de carcinoma representaram percentual significante perantea totalidade de casos diagnosticados de canceres de mama invasivos. Se-gundo o INCA, a denominacao “carcinoma” e atribuıda ao cancer que teminıcio em tecidos epiteliais como pele ou mucosas. O carcinoma mamariocaracteriza-se pela proliferacao anormal das celulas do ducto e do lobulo.

Nenhum avanco terapeutico pode ser comparado, em termos de be-nefıcios globais, a contribuicao que o diagnostico precoce, por meio dosmetodos radiologicos, pode trazer para pacientes portadores do cancer demama (Kopans, 2000).

Atualmente, nao existe nenhuma forma de prevencao da doenca. Osdados mostram que o melhor resultado obtido, mesmo distante do ideal, ea deteccao e tratamento precoce. Tais medidas implicam diretamente noretardo da morte e na melhor qualidade de vida da paciente que podera serpoupada do trauma fısico e psicologico da mastectomia. Definitivamente,o rastreamento mamografico nao e a solucao para o problema do cancer demama, mas e a melhor solucao disponıvel no presente e no futuro proximo.Historicamente, a deteccao precoce proporcionou o uso mais adequado daterapia conservadora com predomınio da excisao e da utilizacao da radia-cao.

68 Xavier et al.

Como as razoes pelas quais a mulher desenvolve o cancer ainda saodesconhecidas e obscuras, o entendimento da epidemiologia e da etiologiadesta malignidade e o alicerce para qualquer estudo deste assunto. Mas,diante destes dados e consideracoes brevemente descritos aqui, as condicoeseconomicas do sistema de saude publica podem influenciar as possıveisescolhas de diagnostico e tratamento desta doenca.

2.1 Fatores de risco e prevençãoEmbora sem comprovacao cientıfica, investigacoes indicam que a incidenciado cancer tem relacao direta com alguns fatores. Dentre estes pode-se des-tacar a idade da mulher, a primeira gravidez, associada com o perıodo delactacao, o uso de anticoncepcionais e a reposicao hormonal. Infelizmente,trata-se apenas de suposicoes pois ate o presente momento nao existe ne-nhuma comprovacao concreta que justifique o aparecimento e desenvolvi-mento das lesoes. Mas, independentemente das afirmacoes anteriores, todamulher apresenta grau de risco. Em numero muito menor tambem saodiagnosticados canceres de mama em indivıduos do sexo masculino.

A hereditariedade do cancer de mama e outro fator amplamente dis-cutido mas tambem ainda pouco consolidado. Algumas mulheres herdamum gene anormal e apresentam risco muito elevado de desenvolvimentodo cancer. Mesmo sem comprovacao do resultado, recomenda-se iniciar orastreamento 10 anos antes da idade que o familiar foi diagnosticado comoportador do cancer de mama (Robson & Offit, 2002; Cohn et al., 2003).

Ainda sem explicacao tambem, Dupont & Page (1985) identificaramque a associacao da presenca de um cisto com o historico de cancer fa-miliar provoca um aumento da ordem de 2 a 3 vezes na possibilidade dedesenvolvimento da doenca. Outro agravante e o proprio processo de de-teccao utilizando raios-X, que pode aumentar o risco de desenvolvimentoda doenca. E sabido que a energia da radiacao produz radicais livres (par-tıculas carregadas) que podem reagir e causar danos ao DNA. Ainda semos devidos cuidados, a exposicao a radiacao pode afetar tambem o propriotecnico radiologista que executa o rastreamento.

2.2 Diagnóstico do câncer de mama por ultrassomHa um crescente avanco nos metodos de diagnostico por imagem incluindoa utilizacao de ultrassom. Na imaginologia mamaria, a ultrassonografiarepresenta uma modalidade de diagnostico muito significativa. Trata-se deum metodo baseado na reflexao do som. Os transdutores sao dispositi-vos existentes no aparelho capazes de transmitir e receber ondas sonoras.As ondas produzidas alcancam os tecidos e, de acordo com os tipos dosmesmos, sao refletidas de volta ao transdutor para ampliacao em monitor.Este metodo e comumente chamado de ecografia pelo fato da reflexao dosom tambem ser chamada de “eco”.

Classificação e extração de características discriminantes de imagens 2D 69

Para lesoes de tamanho maior ou igual a 1(um) cm a utilizacao doultrassom e fortemente indicada para diferenciar um cisto de uma possıvellesao solida (Kopans, 2000; Shah et al., 2010).

3. Metodologia

Para analisar as alteracoes morfologicas estatisticamente significantes eclassificar imagens 2D ultrassonograficas de mama que contem tumoresmalignos e benignos, duas abordagens estatısticas sao consideradas: mas-sivamente univariada e multivariada. Ambas sao descritas em detalhes nassubsecoes seguintes.

3.1 Análise estatística massivamente univariadaA analise estatıstica univariada de imagens e frequentemente baseada emum modelo linear geral (General Linear Model - GLM ), que reune variosmodelos estatısticos diferentes. Dentre outros, pode-se citar a regressaolinear, o teste t, a analise da variancia (ANOVA) e a analise da covariancia(ANCOVA).

O teste de hipoteses, aqui detalhado, foi adotado para identificacaodas diferencas visuais entre os grupos de imagens de tumores benignos emalignos. Usando o teste t como teste de significancia, tem-se que estadiferenca e dada basicamente pelas diferencas entre as medias de cadagrupo ponderada por um desvio padrao do espalhamento das amostrasassumindo igualdade de variancias entre as amostras, ou seja:

tk =x1k − x2k

σk

√1

N1+ 1

N2

, (1)

onde tk e o t-valor da variavel k, x1k e x2k sao as medias amostrais respecti-vas da variavel k do grupo 1 e do grupo 2, σk e o desvio padrao ponderadoda variavel k, o N1 e N2 sao respectivamente o total de amostras do grupo1 e do grupo 2. O desvio padrao ponderado do conjunto de amostras edado pela equacao:

σk =

√(N1 − 1)(σ1k)2 + (N2 − 1)(σ2k)2

N1 +N2 − 2, (2)

onde σ1k e σ2k sao respectivamente o desvio padrao da variavel k para osgrupos 1 e 2.

Trata-se de um teste que visa a identificacao de diferencas entre os gru-pos para um nıvel de significancia fixado. Neste teste, sao verificadas asdiferencas de medias pixel a pixel (Davatzikos, 2004). O teste de hipoteseestatıstica fornece uma afirmacao acerca dos parametros de uma ou maispopulacoes (testes parametricos) ou acerca da distribuicao da populacao

70 Xavier et al.

(Magalhaes & Lima, 2010). Calculando o mapa de t-valores para os gruposanalisados, ou seja, os t-valores de cada um dos pixels do conjunto amos-tral, o conceito de hipotese nula (H0) e hipotese alternativa (H1) pode serutilizado para definir as variaveis que apresentam diferencas significativas.As hipoteses H0 e H1 podem ser descritas matematicamente pelas seguintesequacoes:

H0 : Media do grupo 1 = Media do grupo 2H1 : Media do grupo 1 6= Media do grupo 2

Entretanto, podem ocorrer dois tipos de erros no teste de hipoteses:erro tipo I e tipo II. No erro do tipo I, rejeita-se a H0 quando esta everdadeira, ou seja, afirma-se que existe diferenca estatisticamente signi-ficativa quando, na verdade, nao existe. No erro do tipo II nao rejeita-seH0 quando esta e falsa, ou seja, afirma-se que nao existe diferenca esta-tisticamente significativa quando na verdade existe (Magalhaes & Lima,2010). Neste teste determina-se um valor de significancia p que indiqueque a diferenca e estatisticamente significante com um determinado nıvelde significancia.

Por meio da tabela t de Student pode-se obter o t-valor crıtico cor-respondente a um nıvel de significancia desejado orientado pelos graus deliberdade do conjunto de amostras (Magalhaes & Lima, 2010). O grau deliberdade e obtido pela diferenca entre a quantidade total de amostras ea quantidade de grupos analisados. O teste consiste em verificar se o t-valor calculado, em modulo, e superior ao t-valor observado na tabela t deStudent. Se o t-valor calculado em modulo for maior que o t-valor crıticoda tabela, entao a hipotese nula e rejeitada e esta diferenca encontrada econsiderada relevante do ponto de vista estatıstico (Leao et al., 2009).

3.2 Análise estatística multivariadaTecnicas em estatısticas multivariadas como LDA (Linear DiscriminantAnalysis) e SVM (Support Vector Machine) podem ser utilizadas na etapade classificacao (Fisher, 1936; Giraldi et al., 2008; Hastie et al., 2009; Satoet al., 2009; Vapnik, 1998). Nestas aplicacoes, cada amostra e representadapor um ponto no espaco n-dimensional, onde n e o numero de variaveis doproblema em questao. A denominacao multivariada corresponde as tecni-cas que utilizam todas as caracterısticas (variaveis) para interpretacao doconjunto de dados simultaneamente e nao pixel a pixel como na abordagemanterior.

3.2.1 LDAA proposta do metodo LDA, tambem conhecido como metodo de Fisher(Fisher, 1936), e encontrar o hiperplano de maior separacao entre os gru-pos analisados. O calculo deste hiperplano de separacao considera o co-nhecimento previo da classe ou grupo de cada amostra. A analise LDA

Classificação e extração de características discriminantes de imagens 2D 71

e parametrica, ou seja, considera que a distribuicao de probabilidade dasamostras e conhecida e pode ser representada pela media e dispersao dasamostras.

O metodo baseia-se na diminuicao do espalhamento das amostras comrelacao ao grupo a qual pertencem e, tambem, na maximizacao da distanciada media entre estes grupos (Fisher, 1936). Em outras palavras, calcula-se as matrizes de espalhamento inter-classes e intra-classes com objetivode discriminar os grupos de amostras pela maximizacao da separabilidadeentre classes enquanto minimiza-se a variabilidade dentro das mesmas.

Matematicamente, as matrizes de espalhamento inter-classes (Sb) eintra-classes (Sw) sao definidas como:

Sb =

g∑i=1

Ni(xi − x)(xi − x)T , (3)

Sw =

g∑i=1

Ni∑j=1

(xi,j − xi)(xi,j − xi)T , (4)

onde g e o numero de grupos analisados, Ni a quantidade de amostrasdo grupo i, x e xi sao a media total e a media das amostras do classe i,respectivamente, e xi,j e a amostra j do grupo i. A relacao proposta porFisher que deve ser maximizada e dada pela seguinte equacao (5):

PLDA = arg max|Sb||Sw|

. (5)

O principal objetivo do metodo LDA e encontrar a matriz de proje-cao PLDA que maximiza a razao entre o determinante da matriz de es-palhamento inter-classes Sb e o determinante da matriz de espalhamentointra-classes Sw, conhecido como criterio de Fisher. Este criterio de Fisherdescrito pela Equacao 5 e satisfeito quando a matriz de projecao PLDA ecomposta, no maximo, pelos (g−1) autovetores de S−1

w Sb, cujos autovalorescorrespondentes sao nao-nulos.

Na pratica, esta razao somente pode ser calculada se a matriz de es-palhamento intra-classe Sw for nao-singular. Exatamente neste momentodeve ser observado a proporcao entre o numero de amostras e de varia-veis. Em cenarios onde o numero total de amostras N e bem menor queo numero de variaveis n, ocorre uma instabilidade no calculo da matrizinversa de Sw (Fukunaga, 1990). A quantidade de amostras necessariaspara evitar esta instabilidade no calculo da matriz inversa de Sw deveser igual ou superior a 5 vezes a quantidade de variaveis destas (Jain &Chandrasekaran, 1982). Considerando o cenario do trabalho desenvolvidoaqui, certamente ocorreria este problema, pois a quantidade de amostras ebem inferior a quantidade de variaveis de cada amostra, representada porimagens de tumores.

72 Xavier et al.

Portanto, para o tratamento do problema de instabilidade no calculoda inversa da matriz Sw, utiliza-se o metodo denominado MLDA (Maxi-mum uncertainty Linear Discriminant Analysis) (Thomaz et al., 2006).Esta tecnica consiste em substituir Sw por outra matriz regularizada S∗

w,gerando um aumento no espalhamento dos dados e mantendo as variacoesmais relevantes existentes nas amostras. A nova matriz regularizada S∗

w

pode ser calculada por meio dos seguintes passos:

1. Selecionar os autovetores Φ e autovalores Λ de Sp, onde Sp = SwN−g

;

2. Calcular a media dos autovalores λ;

3. Gerar uma nova matriz de autovalores baseada na dispersao dosmaiores Λ∗ = diag[max(λ1, λ), ...,max(λn, λ)];

4. Calcular a matriz de espalhamento intra-classes regularizada S∗w =

(ΦΛ∗ΦT )(N − g).

Com a matriz S∗w calculada, substitui-se Sw da equacao (5) por S∗

w eregulariza-se o criterio de Fisher para problemas onde N � n.

3.2.2 SVMCom o mesmo proposito final do LDA, o metodo SVM tambem visa en-contrar o hiperplano de maior separacao entre os grupos de amostras. Deforma analoga ao LDA, o calculo do hiperplano de separacao considerao conhecimento previo da classe de cada amostra j investigada, ou seja,yj ∈ {−1, 1}. Porem, o metodo SVM e nao-parametrico, ou seja, naoconsidera a distribuicao de probabilidade das amostras.

O SVM e uma tecnica de reconhecimento de padroes com solido em-basamento teorico e que tem apresentado resultados satisfatorios mesmoquando comparado a metodos classicos como redes neurais e arvores de de-cisao. Trata-se essencialmente de um classificador de duas classes mas quetambem pode ser estendido para tratamento de mais de duas classes (Lo-rena & Carvalho, 2007). Este metodo e baseado na teoria de aprendizadoestatıstico, pioneiramente descrita por Vapnik (1998). Como vantagens, oSVM apresenta boa capacidade de generalizacao, robustez em grandes di-mensoes e convexidade da funcao objetivo. Para encontrar a solucao otimado classificador e usada uma funcao quadratica, em que nao ha presencade varios mınimos locais, e sim apenas um mınimo global, o que facilita aobtencao do valor otimo.

O hiperplano SVM pode ser definido resumidamente como:

wSV M =

N∑j=1

αjyjxj , (6)

onde αj sao os coeficientes de Lagrange nao-negativos obtidos pela solucaode um problema de otimizacao quadratico com restricoes de desigualdade

Classificação e extração de características discriminantes de imagens 2D 73

linear (Lorena & Carvalho, 2007). As observacoes de treinamento xj , comαj nao-zero, ficam na fronteira da margem e sao chamadas de vetores desuporte (Sato et al., 2009). O SVM pode fazer uso de varios tipos de kernel,incluindo o polinomial, o Gaussiano-RBF e o linear. Para os experimentosdesenvolvidos no presente trabalho, foi adotado somente o kernel linear.

4. Experimentos

4.1 Banco de imagens e características geométricas e de texturaForam utilizadas 250 imagens ultrassonograficas de tumores mamarios e umconjunto de valores referentes as caracterısticas de circularidade, sombraacustica e heterogeneidade destes tumores. As imagens de tumores benig-nos totalizam 100 e as de tumores malignos 150. Como existem 5 imagensdiferentes do mesmo tumor, tem-se 20 diferentes tumores benignos e 30diferentes tumores malignos. A Figura 2 apresenta exemplos das imagensinvestigadas aqui. As images foram adquiridas por meio de um equipa-mento modelo Voluson 730 (General Electric, USA) com um transdutorS-VNW5-10. As especificacoes tecnicas deste sao: frequencia de varredurade 5-10 MHz, largura de varredura de 40 mm e angulo de varredura de 20a 30 graus.

(a) (b) (c) (d)Figura 2. Exemplos de imagens investigadas com tumores (a,b) benignos e

(c,d) malignos.

Os valores geometricos de circularidade foram obtidos a partir de umponto central da regiao de interesse (tumor). Calculou-se a distancia entrecada ponto da borda da lesao e o centro da imagem. Os valores tambemforam normalizados pela area total da imagem. Em geral, as lesoes malig-nas apresentam valores mais altos de desvio padrao em relacao a distanciamedia quando comparadas as lesoes benignas. As outras duas caracterıs-ticas, heterogeneidade e sombra acustica, sao de textura. Os valores deheterogeneidade, utilizando imagens em escala de cinza, foram calculadospor meio da entropia BGS (Boltzman-Gibbs-Shannon). Geralmente as le-soes malignas sao mais heterogeneas que as benignas. Ja a sombra acusticatem relacao direta com a regiao inferior da imagem. No caso das imagensde tumores mamarios, a sombra acustica esta extremamente relacionadaao tipo de tumor. Na maioria dos casos de tumor benigno ocorre a for-macao de um reforco acustico abaixo do regiao do tumor em decorrencia

74 Xavier et al.

da existencia de muitas partıculas de agua. Os tumores malignos, que saogeralmente mais solidos, tendem a apresentar uma sombra acustica. Nostumores malignos a sombra acustica e mais intensa (cor mais branca) queo reforco acustico presente nos tumores benignos. Entao, para calcular osvalores desta caracterıstica foram comparados os histogramas da regiao dalesao e da regiao logo abaixo desta. Quanto mais escuro e a regiao abaixo dalesao, maior e a probabilidade desta ser benigna (Rodrigues et al., 2006a).Os valores de pre-processamento das caracterısticas foram atribuıdos porradiologistas e calculados em estudos anteriores (Rodrigues et al., 2006b;Giraldi et al., 2008).

4.2 Pré-processamento das imagensCom o proposito de ajustar as diferencas de resolucao, as imagens foramsubmetidas a uma etapa de pre-processamento. As imagens fornecidas, emescala de cinza, possuem resolucoes diferentes que variam de 57 a 161 pixelsna altura e de 75 a 199 pixels na largura. Independentemente da resolucao,a maioria dos tumores esta localizada no centro das imagens. A intensidadede cada pixel da imagem e definida dentro de uma escala de 0 a 255, que saoas variacoes de tons de cinza em um sistema de representacao de luminanciacom 8 bits de resolucao. A maioria das imagens foram recortadas paraadequacao ao processo de analise. A resolucao de 70 x 70 pixels, escolhidaapos testes, visou evitar a perda de informacoes significativas no recortedas imagens. No entanto, 20 imagens de um total de 250 tiveram que serredimensionadas pois possuiam resolucao inferior a 70 pixels na altura. Amaior diferenca encontrada, em 5 destas 20 imagens, foi de 13 pixels. Nasdemais imagens redimensionadas o maior ajuste foi de 5 pixels.

Apos este pre-processamento inicial, as imagens foram submetidas a umprocesso de reducao de dimensionalidade utilizando a tecnica PCA (Prin-cipal Component Analysis) (Fukunaga, 1990), porem preservando todas ascomponentes com autovalores nao-nulos (Thomaz et al., 2007). Na sequen-cia, as imagens projetadas no espaco do PCA foram entao projetadas noespaco dos classificadores lineares MLDA e SVM para se obter a separacaodos tumores malignos e benignos.

Neste processo de separacao linear empregando os classificadoresMLDA e SVM, foram adotados dois tipos de parametros de entrada. Noprimeiro a classificacao das imagens de tumores mamarios considera a in-tensidade dos pixels, ou seja, a analise e feita na imagem como um todoconsiderando todas as componentes do PCA com autovalores nao-nulos. Jano segundo processo os classificadores sao executados utilizando as caracte-rısticas extraıdas dos tumores nas imagens (circularidade, heterogeneidadee sombra acustica). Os valores atribuıdos a cada caracterıstica sao tratadosseparadamente nos classificadores.

O calculo da acuracia dos classificadores foi baseado na abordagem devalidacao cruzada (cross-validation). Nos experimentos aqui realizados, foi

Classificação e extração de características discriminantes de imagens 2D 75

adotada a forma extrema da abordagem de validacao cruzada denominadaleave-one-out (Fukunaga, 1990). Este metodo foi aplicado em decorrenciado pequeno numero de amostras rotuladas.

5. Resultados

5.1 Análise estatística massivamente univariadaA Figura 3 apresenta as imagens medias das amostras dos grupos benignoe maligno2. Claramente observa-se uma diferenca no formato e tamanhodos tumores nas imagens. Na imagem media das lesoes benignas, vista naFigura 3(a), o tumor e menor e mais concentrado. Ja o tumor das imagensde lesoes malignas, visto na Figura 3(b), parece ser maior e mais espalhado.

(a) (b)Figura 3. (a) Imagem media de tumores benignos; (b) Imagem media de

tumores malignos.

Em complemento as diferencas observadas entre as imagens medias detumores benignos e malignos, foi implementado o teste de hipoteses baseadona distribuicao de probabilidade de t de Student. Nesta analise, a finalidadefoi obter as variacoes mais relevantes estatisticamente entre as imagens dosgrupos de tumores malignos e benignos. Nas Figuras 4(a), 4(b) e 4(c) pode-se observar as regioes mais discriminantes selecionadas de acordo com nıveisde significancia de 5%, 1% e 0,1% da tabela t de Student. Do ponto devista estatıstico, estas sao as regioes de maior discriminancia entre os doisgrupos de imagens de tumor mamario, avaliadas pixel a pixel. Estas regioesmais discriminantes foram projetadas sobre uma imagem de referencia querepresenta aqui a subtracao das imagens medias dos dois grupos. A Figura4(d) demonstra a projecao simultanea das tres imagens relacionadas nasFiguras 4(a), 4(b) e 4(c) representando os nıveis de significancia de 5%, 1%e 0,1% da tabela t de Student. A cor branca e resultante da interseccaodas cores vermelho, verde e azul e representa a projecao simultanea dostres nıveis de significancia adotados (5%, 1% e 0,1%). A cor amarela eresultante da interseccao das cores vermelho e verde e representa a projecao

2 Devido a baixa qualidade das imagens ultrassonograficas as bordas do tumoresforam destacadas utilizando o filtro de Canny.

76 Xavier et al.

simultanea das regioes discriminantes com nıveis de significancia de 5% e1% .

(a) (b) (c) (d)Figura 4. Projecao das regioes discriminantes: (a) Nıvel de significancia de5%; (b) Nıvel de significancia de 1%; (c) Nıvel de significancia de 0,1%; (d)

Projecao simultanea de regioes discriminantes representando todos osnıveis de significancia experimentados (5%, 1% e 0,1%).

5.2 Análise estatística multivariadaOs resultados da analise multivariada sao apresentados em dois passos.Primeiramente as imagens e seus valores de pre-processamento (referentesas caracterısticas circularidade, heterogeneidade e sombra acustica) foramsubmetidos aos classificadores lineares para obter os hiperplanos de separa-cao e tambem avaliar o desempenho dos mesmos. O segundo passo fez usode um mapa de pesos discriminantes, gerado no processo de classificacao,para identificar e mostrar as regioes mais discriminantes das imagens detumor mamario analisadas.

5.2.1 Desempenho dos classificadoresA Tabela 1 apresenta a acuracia dos classificadores nas analises das imagenscomo um todo e das caracterısticas geometrica e de textura. O desempenhodos classificadores considerando a intensidade de todos os pixels da imagemsimultaneamente foi notadamente superior ao desempenho destes mesmosclassificadores analisando as caracterısticas extraıdas das imagens. Estesresultados indicam que os fatores determinantes na classificacao dos gruposvao alem de caracterısticas como circularidade, heterogeneidade e sombraacustica, principalmente para separacoes lineares.

Pode-se constatar que os dois classificadores separaram muito bem osgrupos na analise simultanea de todos os pixels da imagem. A taxa deacerto foi de 100% em ambos classificadores por meio de testes de valida-cao cruzada extrema (leave-one-out). Em contraste, a classificacao con-siderando os valores das caracterısticas apenas nao apresentou resultadosatisfatorio. A maior taxa de acerto, de 78%, foi obtida na avaliacao dacaracterıstica circularidade pelo classificador MLDA.

Classificação e extração de características discriminantes de imagens 2D 77

Tabela 1. Taxas de classificacao.

MLDA SVM

Total Benignos Malignos Total Benignos Malignos

Imagem 100% 100% 100% 100% 100% 100%Circularidade 78% 79% 77% 76% 68% 82%

Heterogeneidade 64% 63% 65% 60% 46% 70%Sombra Acustica 73% 60% 82% 70% 61% 75%

A Figura 5 apresenta, de maneira simultanea, os hiperplanos obtidosdos dois classificadores com o intuito de observar que a ordem de classifica-cao das amostras, no entanto, ficou diferente entre os mesmos. A imagem95, de tumor benigno, ficou mais proxima dos casos malignos no hiperplanoclassificador do SVM. Uma possıvel explicacao para tal posicionamento se-ria a presenca de caracterısticas inerentes aos tumores malignos como asombra acustica e o formato irregular. Ja a imagem 93, tambem do grupode tumores benignos (lado direito), foi ordenada como um dos extremos dogrupo indicando uma classificacao mais facil e/ou mais simples. De formaanaloga, tambem destaca-se a imagem 206 do grupo de tumores malignos.Esta ficou posicionada no extremo do grupo de tumores malignos (lado es-querdo). E valido destacar ainda a posicao da imagem 166 no hiperplanogerado pelo classificador MLDA. Esta imagem foi ordenada como proximaaos tumores malignos, sugerindo uma maior complexidade de classificacao.Observando a imagem 166, nota-se que esta apresenta caracterısticas dosdois grupos de tumores, ou seja, esta apresenta caracterısticas de tumor be-nigno como a ausencia de sombra acustica, mas tambem apresenta formatoirregular, geralmente caracterıstico dos tumores malignos. A proximidadeda fronteira de decisao definida pela ordem das imagens pode ser interpre-tada como uma maior dificuldade de classificacao. Ja a maior distanciadesta pode indicar uma maior facilidade de classificacao.

5.2.2 Transição visual dos tumores classificadosA Figura 6(a) apresenta uma padronizacao generica dos formatos de no-dulos mamograficos proposta pelo BI-RADS (Breast Image Reporting andData System). Nesta e possıvel observar a transicao do nodulo benignopara o maligno de forma grafica. A diferenca no formato dos nodulos ebastante expressiva. Em ambito geral, trata-se de um bom guia visualpara o estudo dos tumores mamograficos em imagens ultrassonograficas.

De forma analoga a Figura 6(b) ilustra, em modo negativo, a transicaodas imagens entre os grupos de tumores benignos e malignos obtida pelosclassificadores MLDA e SVM. Esta transicao visual foi construıda com asimagens medias calculadas a partir de intervalos estabelecidos na ordenacao

78 Xavier et al.

Figura 5. Hiperplanos MLDA e SVM de separacao: maligno a esquerda ebenigno a direita.

Classificação e extração de características discriminantes de imagens 2D 79

discriminante das imagens. O intervalo adotado foi de cinquenta imagens,ou seja, a cada 50 imagens ordenadas calcula-se a imagem media. Como aordenacao e composta pelas 250 imagens amostrais, obtem-se entao cincoimagens para navegacao dos prototipos ordenados do “mais benigno” parao “mais maligno”. E possıvel notar, apesar do numero limitado de imagensconsiderado, diferencas no formato dos tumores e tambem na regiao inferiordestes. A regiao mais clara na parte inferior das imagens e mais intensanas imagens que pertencem ao grupo dos tumores malignos (lado direito).O tamanho dos tumores tambem apresenta variacao na transicao entre osgrupos. O tamanho dos tumores benignos (lado esquerdo) e menor e segueaumentando a medida que a navegacao se aproxima dos tumores malignos(lado direito).

Nota-se ainda uma boa semelhanca nas sequencias de imagens geradaspelos classificadores SVM e MLDA. Apesar da ordem das imagens nao serigual, em ambos resultados, o tamanho do tumor aumenta na navegacaoem direcao aos tumores malignos e a possıvel sombra acustica de corpreta, na parte inferior da imagem, diminui de tamanho na navegacao emdirecao aos tumores benignos (esquerda).

(a)

(b)Figura 6. (a) Formato BI-RADS dos tumores mamarios; (b) Transicao

visual dos tumores ordenados pelos classificadores MLDA (linha superior)e SVM (linha inferior), partindo dos “mais benignos” (a esquerda) para os

“mais malignos” (a direita).

80 Xavier et al.

6. Conclusão

Este trabalho realizou comparacoes quantitativas e qualitativas entre os re-sultados das aplicacoes dos metodos estatısticos univariado e multivariadona analise de imagens ultrassonograficas de mama. O sucesso da aplica-cao destes metodos estatısticos e fortemente dependente das fases de pre-processamento e segmentacao das imagens. Os resultados obtidos na ana-lise multivariada considerando a intensidade de todos os pixels da imagemsimultaneamente, por meio dos classificadores SVM e MLDA, alcancaramdesempenho superior perante a mesma analise utilizando caracterısticasextraıdas das imagens como circularidade e sombra acustica. Enquantoque a classificacao linear utilizando a imagem como um todo alcancou ataxa de acerto absoluta em ambos classificadores, obteve-se a maior taxade acerto de 78% analisando a caracterıstica circularidade pelo classificadorMLDA.

E importante ressaltar, no entanto, que todas as imagens analisadasapresentavam tumores e que estes estavam posicionados na regiao centraldas mesmas. Em outras palavras, estas imagens foram normalizadas espa-cialmente com o intuito de evidenciar a regiao do tumor e eliminar regioesde fundo da imagem. A obtencao deste alto ındice de acuracia foi certa-mente favorecida por estes ajustes feitos na etapa de pre-processamentodas imagens. Na literatura o ındice medio de acuracia dos classificadores eda ordem de 90%. Talvez a aplicacao dos mesmos metodos em imagens deultrassom sem pre-processamento possa apresentar taxas de acertos me-nores e mais proximas desta, mas a analise estatıstica da imagem comoum todo normalizada espacialmente apresentou resultado de classificacaoextremamente promissor.

Adicionalmente, a analise univariada indicou as regioes central e infe-rior da imagem como mais diferentes estatisticamente. Na transicao entreos grupos de tumores benignos e malignos, foi possıvel notar as diferencasentre os grupos justamente nestas regioes indicadas pela analise univariada.Muito provavelmente as caracterısticas de circularidade e sombra acusticaexerceram influencia na discriminancia dos grupos. Entretanto, a analisefinal dos resultados indicou que as diferencas entre as imagens de tumo-res benignos e malignos nao sao concentradas em determinadas regioes daimagem. Na verdade, estas diferencas estao espalhadas por toda a area daimagem. Pode-se concluir que as diferencas entre os grupos nao sao limi-tadas a observacao de determinadas regioes ou caracterısticas exclusivas.As diferencas sao difusas e complexas, e, portanto, outras partes da ima-gem devem ser observadas para alcancar um bom resultado na identificacaocorreta de cada classe ou grupo de tumores.

Acredita-se que os resultados promissores alcancados na analise dasimagens como um todo, tanto para classificadores nao-parametricos e pa-rametricos como o SVM e o MLDA, podem ser de grande valia no trei-

Classificação e extração de características discriminantes de imagens 2D 81

namento e suporte para radiologistas. No caso de radiologistas iniciantes,este tipo de analise possibilitaria a confirmacao de determinada classifica-cao do ponto de vista estatıstico, principalmente em casos mais simples. Jano caso de radiologistas experientes, os resultados dos classificadores pode-riam servir de apoio na tomada de decisoes, principalmente nos casos maiscomplexos e duvidosos. Por exemplo, nos casos mais duvidosos, o radio-logista poderia verificar o resultado do classificador antes de solicitar umnovo tipo de exame ou mesmo determinar um tipo de tumor. A naturezanao invasiva, o baixo custo e a formacao da imagem em tempo real fazemda imaginologia ultrassonografica, aliada a analise estatıstica de imagem,uma ferramenta extremamente util no diagnostico medico.

Referências

ACS, , Breast Cancer: Cancer Facts and Figures. American Cancer So-ciety, 2010. Http://www.cancer.org/Research/CancerFactsFigures/BreastCancerFactsFigures/breast-cancer-facts–figures-2009-2010.

Cohn, W.F.; Ropka, M.E.; Jones, S.M. & Miesfeldt, S., Information needsabout hereditary breast cancer among women with early-onset breastcancer. Cancer Detection and Prevention, 27(5):345–352, 2003.

Davatzikos, C., Why voxel-based morphometric analysis should be usedwith great caution when characterizing group differences. Neuroimage,23(1):17–20, 2004.

Dupont, W.D. & Page, D.L., Risk factors for breast cancer in womenwith proliferative breast disease. New England Journal of Medicine,312(3):146–151, 1985.

Fisher, R.A., The use of multiple measurements in taxonomic problems.Annals of Eugenics, 7(7):179–188, 1936.

Fukunaga, K., Introduction to Statistical Pattern Recognition. 2a edicao.London, UK: Academic Press, 1990.

Giraldi, G.A.; Rodrigues, P.S.; Kitani, E.C.; Sato, J.R. & Thomaz,C.E., Statistical learning approaches for discriminant features selec-tion. Journal of the Brazilian Computer Society, 14(2):7–22, 2008.

Hastie, T.; Tibshirani, R. & Friedman, J., The Elements of StatisticalLearning: Data Mining, Inference, and Prediction. 2a edicao. NewYork, USA: Springer, 2009.

INCA, , Estimativa 2010: incidencia de cancer no Brasil. Instituto Nacionalde Cancer, 2009. Http://www.inca.gov.br/estimativa/2010/.

Jain, A.K. & Chandrasekaran, B., Dimensionality and sample size con-siderations in pattern recognition practice. In: Krishnaiah, P.R. &Kanal, L.N. (Eds.), Handbook of Statistics. Amsterdam, The Nether-lands: North-Holland, v. 2, p. 835–855, 1982.

82 Xavier et al.

Kopans, D.B., Imagem da Mama. 2a edicao. Sao Paulo, SP: Medsi, 2000.

Leao, R.D.; Sato, J.R. & Thomaz, C.E., Comparacao entre as analisesestatısticas univariada e multivariada para extracao de informacaodiscriminante em imagens de ressonancia magnetica do cerebro hu-mano. Relatorio Tecnico 01/2009, Departamento de Engenharia Ele-trica, FEI, Sao Bernardo do Campo, SP, 2009.

Lorena, A.C. & Carvalho, A.C.P.L.F., Uma introducao as Support VectorMachines. Revista de Informatica Teorica e Aplicada, 14(2):43–67,2007.

Magalhaes, M.N. & Lima, A.C.P., Nocoes de Probabilidade e Estatıstica.6a edicao. Sao Paulo, SP: EDUSP, 2010.

Robson, M.E. & Offit, K., Considerations in genetic counseling for inhe-rited breast cancer predisposition. Seminars in Radiation Oncology,12(4):362–370, 2002.

Rodrigues, P.S.; Giraldi, G.A.; Chang, R.F. & Suri, J.S., Automatic clas-sification of breast lesions in 3-D ultrasound images. In: Suri, J.S.;Kathuria, C.; Molinari, F. & Fenster, A. (Eds.), Advances in Diag-nostic and Therapeutic Ultrasound Imaging. Norwood, USA: ArtechHouse Publishers, p. 189–224, 2006a.

Rodrigues, P.S.; Giraldi, G.A.; Chang, R.F. & Suri, J.S., Non-extensiveentropy for CAD systems of breast cancer images. In: Proceedingsof the 19th Brazilian Symposium on Computer Graphics and ImageProcessing. Los Alamitos, USA: IEEE Computer Society, v. 3, p. 121–128, 2006b.

Sato, J.R.; Fujita, A.; Thomaz, C.E.; da Graca Morais Martin, M.;Mourao-Miranda, J.; Brammer, M.J. & Amaro Junior, E., Evalua-ting SVM and MLDA in the extraction of discriminant regions formental state prediction. NeuroImage, 46(1):105–114, 2009.

Shah, B.A.; Fundaro, G.M. & Mandava, S., Breast Imaging Review: AQuick Guide to Essential Diagnoses. New York, USA: Springer, 2010.

Thomaz, C.E.; Boardman, J.P.; Counsell, S.; Hill, D.L.G.; Hajnal, J.V.;Edwards, A.D.; Rutherford, M.A.; Gillies, D.F. & Rueckert, D., Amultivariate statistical analysis of the developing human brain in pre-term infants. Image and Vision Computing, 25(6):981–994, 2007.

Thomaz, C.E.; Kitani, E.C. & Gillies, D.F., A maximum uncertainty LDA-based approach for limited sample size problems – with application toface recognition. Journal of the Brazilian Computer Society, 12:7–18,2006.

Vapnik, V.N., Statistical Learning Theory. New York, USA: John Wiley &Sons, 1998.

Classificação e extração de características discriminantes de imagens 2D 83

Notas BiográficasAlbert da Costa Xavier e graduado em Ciencia da Computacao (UniversidadeJose do Rosario Vellano – UNIFENAS, 2001) e mestre em Engenharia Eletrica(Centro Universitario da FEI, 2011). Atualmente e professor em regime parcialda Faculdade de Informatica e Administracao Paulista – FIAP. Tem experienciana area de Ciencia da Computacao com enfase em reconhecimento de padroesem estatıstica e arquitetura de sistemas.

Joao Ricardo Sato e graduado em Estatıstica, mestre e doutor (Universidadede Sao Paulo, 2002, 2004 e 2007, respectivamente). Atua em projetos de pesquisamultidisciplinares envolvendo os seguintes temas: modelagem estatıstica e com-putacional em neurociencias, neuroimagem, mapeamento funcional do cerebrohumano, analise de series temporais, bioestatıstica, estatıstica nao-parametrica emodelos de regressao.

Gilson Antonio Giraldi e graduado em Matematica (Pontifıcia UniversidadeCatolica de Campinas, 1986), mestre em Matematica Aplicada (UniversidadeEstadual de Campinas, 1993) e doutor em Engenharia de Sistemas e Computacao(Universidade Federal do Rio de Janeiro, 2000). Atualmente e pesquisadoradjunto III do Laboratorio Nacional de Computacao Cientıfica. Tem experienciana area de Ciencia da Computacao, com enfase em Matematica da Computacao,atuando principalmente nos seguintes temas: segmentacao, modelos deformaveis,processamento de imagens, snakes e animacao de fluidos.

Paulo Sergio Rodrigues e graduado em Ciencia da Computacao (Univer-sidade Federal do Para, 1996), mestre e doutor em Ciencia da Computacao(Universidade Federal de Minas Gerais, 1997 e 2003, respectivamente) e tempos-doutoramento (Laboratorio Nacional de Computacao Cientıfica, 2003-2007).Desde 2007 e professor em tempo integral da Fundacao Educacional Inaciana,ministrando as cadeiras de Computacao Grafica (graduacao), Visao Computa-cional e Geometria Computacional (pos-graduacao em Engenharia Eletrica).Suas principais areas de interesse sao: visao computacional e reconhecimento depadroes, tendo publicado diversos artigos internacionais nessas areas.

Carlos Eduardo Thomaz e graduado em Engenharia Eletronica e mestreem Engenharia Eletrica (Pontifıcia Universidade Catolica do Rio de Janeiro,1993 e 1999, respectivamente), doutor em Ciencia da Computacao (ImperialCollege London, 2005). Atualmente e professor adjunto do Centro Universitarioda FEI. Tem experiencia na area de Ciencia da Computacao, com enfase emreconhecimento de padroes em estatıstica, atuando principalmente nos seguintestemas: visao computacional, computacao em imagens medicas e biometria.

84 Xavier et al.

.