msc engenharia biomédica ist, lisboa, 14 de novembro, 2007 artem khmelinskii nº 52767...
TRANSCRIPT
MSc Engenharia BiomédicaIST, Lisboa, 14 de Novembro, 2007
Artem Khmelinskii Nº 52767
Orientadores:
• Professor João Sanches
• Professora Maria do Carmo Fonseca
‘Emparelhamento de Cromossomas
Para Propósitos de Cariotipagem’
Sumário Motivação
Formulação do Problema
Extracção de Características
Emparelhamento
Resultados
Conclusão e Trabalhos Futuro
Motivação (1) Citogenética: estudo do material cromossómico
Leucemía (caracterizada pelas anomalias cromossómicas)
Estudos citogenéticos são essenciais na escolha do tratamento certo para o doente
Cariotipágem (emparelhamento)
Cariótipo: características do cromossoma
Espera-se resultados rápidos, precisos e específicos
As análises citogenéticas requerem uma permanente intervenção humana
Placa metafásica de um indivíduo masculino
Cariótipo normal masculino
Cariótipo anormal feminino t(9;22)(q34;q11) Leucemía Mielóide Crónica
Motivação (1) Citogenética: estudo do material cromossómico
Leucemía (caracterizada pelas anomalias cromossómicas)
Estudos citogenéticos são essenciais na escolha do tratamento certo para o doente
Cariotipágem (emparelhamento)
Cariótipo: características do cromossoma
Espera-se resultados rápidos, precisos e específicos
As análises citogenéticas requerem uma permanente intervenção humana
Motivação (2)
Um problema importante durante décadas dentro do âmbito do processamento de imagem e reconhecimento de padrões
Dificuldades Distorção geométrica e de intensidade Similaridade entre os cromossomas
Pacotes comerciais – Leica ®, Cytovision® e Metasystems®
Resultados de emparelhamento quase nulos
No IMM há uma forte componente manual
Objectivo: novas contribuições para a resolução do problema de emparelhamento pelo software Leica CW 4000 Karyo Novas características Classificadores
Sumário Motivação
Formulação do Problema
Extracção de Características
Emparelhamento
Resultados
Conclusão e Trabalhos Futuro
Formulação do Problema Extracção de características
Emparelhamento
Extracção de CaracterísticasIndividualização com as Bounding Box
Dimensão
Forma
Textura
Extracção de Características - Dimensão Área (contagem dos píxeis)
Perímetro
Altura (~altura das Bounding Boxes)
Comprimento dos eixos da menor elipse envolvente
Proporção de tamanho
Extracção de Características - Forma Área Normalizada (Área/Perímetro)
Directional Chain Code
1 2 3
54
6 7 8
0
Extracção de Características - TexturaEscalamento dos Cromossomas
Perfil de Densidade
Mutual Information
Extracção de Características – Mutual Information
),()()(),( YXHYHXHYXI
i
iii i
i ppp
pH log1
log
Entropia de Shannon
Mede a informação que duas variáveis/imagens X e Y partilham
0),( YXI
),(),( XYIYXI
Extracção de Características – Perfil de Densidade
Valor médio ao longo das transversais ao eixo medial do cromossoma
~PMS (“poor man skeleton”)
a b c e e
Extracção de Características – Perfil de Densidade
Matriz de Características - FLN 2 Tamanho: , onde corresponde ao número de cromossomas e
ao número de características usadas no emparelhamento
, onde , ,
é a métrica euclidiana
Distâncias parciais
Matriz de distâncias Global
),(, jidf kji Lk ,...,1 2,...,1 Ni Lj ,...,1
),( jidkf11(1) f11(2) f11(3) f11(4) f11(5) f11(6) f11(7)
f12(1) f12(2) f12(3) f12(4) f12(5) f12(6) f12(7)
f13(1) f13(2) f13(3) f13(4) f13(5) f13(6) f13(7)
... ... ... ... ... ... ...
f110(1) f110(2) f110(3) f110(4) f110(5) f110(6) f110(7)
f21(1) f21(2) f21(3) f21(4) f21(5) f21(6) f21(7)
f22(1) f22(2) f22(3) f22(4) f22(5) f22(6) f22(7)
... ... ... ... ... ... ...
f210(1) f210(2) f210(3) f210(4) f210(5) f210(6) f210(7)
... ... ... ... ... ... ...
f101(1) f101(2) f101(3) f101(4) f101(5) f101(6) f101(7)
... ... ... ... ... ... ...
f1010(1) f1010(2) f1010(3) f1010(4) f1010(5) f1010(6) f1010(7)
N L
j)D(i,
Emparelhamento
Objectivo
Encontrar a matriz de permutação , onde
Dimensão matriz C:
Optimização combinatória global (A*) de uma função de custo que depende da matriz de distâncias
Cumpre a restrição de 1 mínimo por linha e por coluna
),( jicC
contráriocaso
parumformamjeisejic
1
0),(
NN
j)D(i,
EmparelhamentoObjectivo
Exemplo:
1 2 3 4
1 - 0.0076 0.1314 0.0597
2 0.0076 - 0.1032 0.0079
3 0.1314 0.1032 - 0.0061
4 0.0597 0.0079 0.0061 -
1 2 3 4
1 - 0 1 1
2 0 - 1 1
3 1 1 - 0
4 1 1 0 -
A*
2 Pares de cromossomas 1 com 2 3 com 4
Matriz de Distâncias - D
Dimensão matriz D:
2 algortimos Não - Supervisionados
2 algoritmos Supervisionados vectores de pesos , onde corresponde a um determinado par/classe de
cromossomas A distância entre dois cromossomas é a distância mínima obtida de entre os vários
vectores , i.e.,
NN
rwr r
rw
2min),( r
wj)wd(i,
rjid
algoritmo de Soma de Distâncias
k
k jidjid ),(),(
A distância entre dois cromossomas é simplesmente a soma das métricas associadas às diferentes características
Igual importancia para todas as carateristicas
algoritmo Não Supervisionado de Votação (1)
emparelhamentos
matrizes de distâncias, contendo cada uma delas, as distâncias parciais associadas a uma característica específicaL
L
algoritmo Não Supervisionado de Votação (2)
f11(1) f11(2) f11(3)
f12(1) f12(2) f12(3)
f13(1) f13(2) f13(3)
... ... ...
f16(1) f16(2) f16(3)
f21(1) f21(2) f21(3)
f22(1) f22(2) f22(3)
... ... ...
f26(1) f26(2) f26(3)
... ... ...
... ... ...
f61(1) f61(2) f61(3)
... ... ...
f66(1) f66(2) f66(3)
0 1 0 0 0 0
1 0 0 0 0 0
0 0 0 1 0 0
0 0 1 0 0 0
0 0 0 0 0 1
0 0 0 0 1 0
0 1 0 0 0 0
1 0 0 0 0 0
0 0 0 1 0 0
0 0 1 0 0 0
0 0 0 0 0 1
0 0 0 0 1 0
0 1 0 0 0 0
1 0 0 0 0 0
0 0 0 1 0 0
0 0 1 0 0 0
0 0 0 0 0 1
0 0 0 0 1 0
0 3 0 0 0 0
3 0 0 0 0 0
0 0 0 3 0 0
0 0 3 0 0 0
0 0 0 0 0 3
0 0 0 0 3 0
),(, jivjid
k
k jipjiv ),(),(
),( jiv
A*
A*
A*
A*
algoritmo de Combinação Linear Supervisionado Binária (1) Treino
Para todos as classes k de cromossomas é estimado um vector wk de pesos
Solução
CFwww
minarg~
1,0witho ii ccCnde
FrsapseudoinveaéF
CFCFFFw kTT
k
deonde
)(~ 1
algoritmo de Combinação Linear Supervisionado Binária (2)
f11(1) f11(2) f11(3)
f12(1) f12(2) f12(3)
f13(1) f13(2) f13(3)
f14(1) f14(2) f14(3)
f21(1) f21(2) f21(3)
f22(1) f22(2) f22(3)
f23(1) f23(2) f23(3)
f24(1) f24(2) f24(3)
f31(1) f31(2) f31(3)
f32(1) f32(2) f32(3)
f33(1) f33(2) f33(3)
f34(1) f34(2) f34(3)
f41(1) f41(2) f41(3)
f42(1) f42(2) f42(3)
f43(1) f43(2) f43(3)
f44(1) f44(2) f44(3)
11w12w13w
= 0
0
1
1
0
0
1
1
1
1
1
1
1
1
1
1
. 21w22w23w
= 1
1
1
1
1
1
1
1
1
1
0
0
1
1
0
0
f11(1) f11(2) f11(3)
f12(1) f12(2) f12(3)
f13(1) f13(2) f13(3)
f14(1) f14(2) f14(3)
f21(1) f21(2) f21(3)
f22(1) f22(2) f22(3)
f23(1) f23(2) f23(3)
f24(1) f24(2) f24(3)
f31(1) f31(2) f31(3)
f32(1) f32(2) f32(3)
f33(1) f33(2) f33(3)
f34(1) f34(2) f34(3)
f41(1) f41(2) f41(3)
f42(1) f42(2) f42(3)
f43(1) f43(2) f43(3)
f44(1) f44(2) f44(3)
. .
algoritmo de Combinação Linear Supervisionado de Máxima Separação Treino
Para todos as classes k de cromossomas é estimado um vector wk de pesos
Solução
rrrrrrrrrr wwwFFwwFwF TTT
ww )()
~()
~()()(minarg~
1)( rr ww T
iTrT
iu,...,uu
r u)(ΦuwLii
minargˆ
Sumário Motivação
Formulação do Problema
Extracção de Características
Emparelhamento
Resultados
Conclusão e Trabalhos Futuro
Resultados (0)Dados de teste
“Bons” cariogramas
5 conjuntos de cromossomas de classes diferentes (por ordem crescente de dificuldade de emparelhamento) por cada cariograma
4 Pares 1, 10, 16, 21 5 Pares 1, 10, 16, 21 + 3 6 Pares 1, 10, 16, 21 + 3 + 12 7 Pares 1, 10, 16, 21 + 3 + 12 + 15 8 Pares 1, 10, 16, 21 + 3 + 12 + 15 + 22
Não-Supervisionados: 16 cariogramas, i.e., 16x5 conjuntos de teste no total
Supervisionados: 4 cariogramas de treino, 2 cariogramas de teste
9 características utilizadas no emparelhamento
Resultados (1) - algoritmo Não Supervisionado de Votação
Conjunto\Imagem 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 - (4 pares) √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √
2 - (5 pares) √ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √
3 - (6 pares) 4/6 4/6 4/6 4/6 4/6 √ 4/6 √ 4/6 √ 4/6 √ 4/6 4/6 √ √
4 - (7 pares) 5/7 3/7 5/7 3/7 3/7 5/7 5/7 √ 5/7 √ 3/7 5/7 3/7 3/7 √ 5/7
5 - (8 pares) 6/8 5/8 5/8 4/8 4/8 6/8 6/8 6/8 6/8 √ 4/8 6/8 4/8 4/8 √ 4/8
√ - Emparelhamento total (100%)
Resultados (2) - algoritmo de Soma de Distâncias
Conjunto\Imagem 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
1 - (4 pares)√ √ √ √ √ √ √ √ √ √ √ √ √ √ √ √
2 - (5 pares) 3/5√ √ √ √ √ √ √ √ √ √ √ √ 3/5 √ √
3 - (6 pares) 4/6 4/6 4/6 4/6 4/6√ √ √
4/6√
3/6 4/6 √ 2/6√
4/6
4 - (7 pares) 5/7 5/7 5/7 5/7 5/7√ √ √
5/7√
4/7 4/7 √ 3/7√
5/7
5 - (8 pares) 6/8 6/8 6/8 6/8 6/8√ √ √
6/8√
4/8 5/8 √ 4/8√
6/8
√ - Emparelhamento total (100%)
Resultados (3) - algoritmo de Combinação Linear Supervisionado Binária
Conjunto\Imagem Imagem de Teste 1 Imagem de Teste 2
1 - (4 pares) √ √
2 - (5 pares) 1/5 √
3 - (6 pares) 2/6 1/6
4 - (7 pares) 3/7 2/7
5 - (8 pares) 5/8 2/8
√ - Emparelhamento total (100%)
Resultados (4) – algoritmo de Combinação Linear Supervisionado de Máxima Separação
Conjunto\Imagem Imagem de Teste 1 Imagem de Teste 2
1 - (4 pares) √ √
2 - (5 pares) √ 3/5
3 - (6 pares) 4/6 2/6
4 - (7 pares) 5/7 3/7
5 - (8 pares) 5/8 4/8
√ - Emparelhamento total (100%)
Resultados (5) - Tempos de Execução 4.402 segundos - algoritmo de Votação
0.204 segundos - algoritmo Soma de Distâncias
Não significativo – algoritmos supervisionados
Sumário Motivação
Formulação do Problema
Extracção de Características
Emparelhamento
Resultados
Conclusão e Trabalhos Futuro
Conclusão Data set ainda reduzido
Resultados são bastante promissores dada a complexidade e dificuldade do problema
Taxas de sucesso de emparelhamento de 100 % para conjuntos de 16 cromossomas (8 pares)
Taxas de sucesso superiores às do software Leica CW 4000 Karyo utilizado pelo IMM
Trabalho Futuro Melhoramentos a 3 níveis:(Testes exaustivos)
Pré-Processamento Equalização do histograma (brilho&contraste) Desconvolução semi adaptativa (desfocagem) Correcção geométrica (distorções geométricas)
Espaço das Características Selecção das características Introdução de mais características (WDD´s, Wavelets)
Classificadores Support vector machines Redes Neuronais
Referências (principais - 1) Data-driven homologue matching for chromosome identification, Stanley, R.J.; Keller,
J.M.; Gader, P.; Caldwell, C.W.; IEEE Transactions on Medical Imaging Volume 17, Issue 3, June 1998 Page(s):451 – 462
On Fully Automatic Feature Measurement for Banded Chromosome Classification, Piper J. and Granum E., Cytometry, 1989, 10, Page(s):242-255
Profile and feature extraction from chromosomes, Ritter, G.; Schreib, G.; Pattern Recognition, 2000. Proceedings. 15th International Conference on Volume 2, 3-7 Sept 2000 Page(s):287 – 290
A mathematical model for classical chromosome identification using the logical combinatory approach, Ortiz-Posadas, M.R.; Pantaleao, C.H.Z.; Bose, R.; Engineering in Medicine and Biology Society, 2003. Proceedings of the 25th Annual International Conference of the IEEE Volume 2, 17-21 Sept. 2003 Page(s):1342 - 1345
Chromosome classification for karyotype composing applying shape representation on wavelet packet transform, Guimaraes, L.V.; Schuck, A.; Elbern, A.; Engineering in Medicine and Biology Society, 2003. Proceedings of the 25th Annual International Conference of the IEEE Volume 1, 17-21 Sept. 2003 Page(s):941 – 943
Identification of human chromosome by using integrated density profile, Granlund H. G., IEEE Trans. Biomed. Eng., vol. BME-23,pp. 182-192, 1976
Mutual-information-based registration of medical images: a survey, Pluim, J.P.W.; Maintz, J.B.A.; Viergever, M.A.; Medical Imaging, IEEE Transactions on Volume 22, Issue 8, Aug. 2003 Page(s):986 – 1004
Referâncias (principais - 2) Basic Pathology, Vinay, Kumar, Rmazi, S., Cotran and Stanley, L., Robbins,
Saunders, 2003, 7th Edition
Cancer Cytogenetics: Methods and Protocols (Methods in Molecular Biology), John Swansbury, Humana Press, 2003
Artificial Intelligence: A Modern Approach, Stuart Russell and Peter Norvig, Prentice Hall, 2003, 2nd Edition
Introduction to the Human Body, Tortora, J., G., Grabowski, R., S., John Wiley & Sons, 2001,5th Edition
Automatic landmark detection on chromosomes' images for feature extraction purposes, Moradi, M.; Setarehdan, S.K.; Ghaffari, S.R.; Image and Signal Processing and Analysis, 2003. ISPA 2003. Proceedings of the 3rd International Symposium on Volume 1, 18-20 Sept. 2003 Page(s):567 – 570
Analyzing Chromosomes, Czepulkowski, B., BIOS, 2001
Human Cytogenetics, A Practical Approach, Volume II, Rooney and Czepulkowski, IRL Press, 2nd Edition
Practical Handbook on Image Processing for Scientific and Technical Applications, Bernd Jähne, University of Heidelberg, CRC Press, 2nd Edition, 2004
All that she wants...