análise automatizada em géis de eletroforese...

6
Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa 1: Detecção das colunas e do marcador. Lucas Ferrari de Oliveira 1 [email protected] William Rodrigo Joanico 2 [email protected] Alysson Luís Martins Narloch 1 [email protected] Iris Hass 2 [email protected] 1 Universidade Federal do Paraná Setor de Ensino Profissional e Tecnológico (SEPT), 81520-260 - Curitiba, PR 2 Universidade Federal do Paraná Programa de Pós-Graduação em Bioinformática, 81520-260 - Curitiba, PR Resumo This paper presents a computational approach to perform automated detection of structures belong- ing to the images of one-dimensional electrophoresis gels, such as columns and markers. The volume anal- ysis of one-dimensional electrophoresis gels and it is growing solutions are needed more robust computer- ized and automated. We use 11 images that were submitted to a pre-processing with cutouts, alignments and applica- tion of a bi-lateral filter. The methods used to detect the markers and columns using the binarization and count- ing "white spots"in each column of the image, but each has its own flow of execution. The detection of the mark- ers was 73 % hit rate in the correct identification, since identification of the columns reached 82 % accu- racy. The results show that the implemented methods are valid and that even being a simple function for the prob- lem. 1. Introdução O estudo de génetica de polulações, visa principalmente estabelecer a variabilidade genética e identificar possíveis características populacionais ou específicas. Examinando o DNA de uma amostra é possível achar padrões genéticos parecidos, estes podem ser base à inclusão de um determi- nado indivíduo em algum grupo que possuam particulari- dades. A técnica de eletroforese é um meio pela qual pode- se obter essas informações [5]. Eletroforese consiste na separação de moléculas bioló- gicas eletroquímicas, essas moléculas de proteínas ou frag- mentos de DNA ou RNA, são submetidas a um campo elétrico ao longo de um gel de agarose ou de poliacrilamida. Utilizando o DNA como exemplo, uma dada molécula é quebrada em diversos fragmentos com auxílio de enzi- mas específicas. Estes por sua vez, são depositados no gel, onde um campo elétrico é aplicado. Os fragmentos pos- suem massa molecular e carga elétrica diferentes, fazendo com que fiquem em posições distintas ao percorrer o gel. As moléculas com maior peso ou maior carga se movi- mentam mais lentamente em relação às moléculas menores. Após um determinado tempo, esse processo é paralisado e o gel passa por um procedimento de coloração, fazendo com que seja possível observar em qual posição os fragmentos pararam ([4], [5]). A Figura 1, apresenta um exemplo de imagem de eletro- forese. As galerias verticais são conhecidas como colunas, e uma coluna é conhecida como marcador e as bandas são as substâncias contidas em cada coluna, elas mostram as posições nas quais as moléculas cessaram. Com o avanço na quantidade de dados que são gera- dos através de processos informatizados que abrangem to- das as áreas da biologia, a bioinformática vem na busca de soluções para sanar essas dificuldades, como a explosão de dados e informações [6]. A análise de géis unidimensionais de eletroforese vem crescendo constantemente e com isso necessita de soluções informatizadas mais robustas e automatizadas. A pesquisa que envolve análise de géis de eletroforese se enquadra neste contexto. Comumente algumas ferramen- tas são encontradas para realizar esse tipo de análise, mas a utilização e a forma como a informação é mostrada ao pesquisador ainda necessita ser melhorada.. A interação hu- mana com os dados é necessária, pois nenhum processo au-

Upload: lekien

Post on 08-Feb-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU).Etapa 1: Detecção das colunas e do marcador.

Lucas Ferrari de Oliveira1

[email protected] Rodrigo Joanico2

[email protected] Luís Martins Narloch1

[email protected]

Iris Hass2

[email protected] Federal do Paraná

Setor de Ensino Profissional e Tecnológico (SEPT), 81520-260 - Curitiba, PR2Universidade Federal do Paraná

Programa de Pós-Graduação em Bioinformática, 81520-260 - Curitiba, PR

Resumo

This paper presents a computational approach toperform automated detection of structures belong-ing to the images of one-dimensional electrophoresisgels, such as columns and markers. The volume anal-ysis of one-dimensional electrophoresis gels and it isgrowing solutions are needed more robust computer-ized and automated. We use 11 images that were submittedto a pre-processing with cutouts, alignments and applica-tion of a bi-lateral filter. The methods used to detect themarkers and columns using the binarization and count-ing "white spots"in each column of the image, but eachhas its own flow of execution. The detection of the mark-ers was 73 % hit rate in the correct identification,since identification of the columns reached 82 % accu-racy. The results show that the implemented methods arevalid and that even being a simple function for the prob-lem.

1. Introdução

O estudo de génetica de polulações, visa principalmenteestabelecer a variabilidade genética e identificar possíveiscaracterísticas populacionais ou específicas. Examinando oDNA de uma amostra é possível achar padrões genéticosparecidos, estes podem ser base à inclusão de um determi-nado indivíduo em algum grupo que possuam particulari-dades. A técnica de eletroforese é um meio pela qual pode-se obter essas informações [5].

Eletroforese consiste na separação de moléculas bioló-gicas eletroquímicas, essas moléculas de proteínas ou frag-

mentos de DNA ou RNA, são submetidas a um campoelétrico ao longo de um gel de agarose ou de poliacrilamida.Utilizando o DNA como exemplo, uma dada molécula équebrada em diversos fragmentos com auxílio de enzi-mas específicas. Estes por sua vez, são depositados no gel,onde um campo elétrico é aplicado. Os fragmentos pos-suem massa molecular e carga elétrica diferentes, fazendocom que fiquem em posições distintas ao percorrer o gel.As moléculas com maior peso ou maior carga se movi-mentam mais lentamente em relação às moléculas menores.Após um determinado tempo, esse processo é paralisado e ogel passa por um procedimento de coloração, fazendo comque seja possível observar em qual posição os fragmentospararam ([4], [5]).

A Figura 1, apresenta um exemplo de imagem de eletro-forese. As galerias verticais são conhecidas como colunas,e uma coluna é conhecida como marcador e as bandas sãoas substâncias contidas em cada coluna, elas mostram asposições nas quais as moléculas cessaram.

Com o avanço na quantidade de dados que são gera-dos através de processos informatizados que abrangem to-das as áreas da biologia, a bioinformática vem na busca desoluções para sanar essas dificuldades, como a explosão dedados e informações [6].

A análise de géis unidimensionais de eletroforese vemcrescendo constantemente e com isso necessita de soluçõesinformatizadas mais robustas e automatizadas.

A pesquisa que envolve análise de géis de eletroforesese enquadra neste contexto. Comumente algumas ferramen-tas são encontradas para realizar esse tipo de análise, masa utilização e a forma como a informação é mostrada aopesquisador ainda necessita ser melhorada.. A interação hu-mana com os dados é necessária, pois nenhum processo au-

Page 2: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

Figura 1. Exemplo de Imagem de Gel deEletroforese

tomatizado trará 100% de acertos e comparando uma deter-minada imagem com ferramentas diferentes, os resultadospodem ser divergentes.

Utilizando técnicas de processamento de imagens é pos-sível identificar, classificar e mensurar, por exemplo, o pesomolecular de RNA, DNA, proteínas e enzimas, utilizandopadrões estabelecidos.

Este trabalho apresenta um algoritmo base para detecçãodo marcador e das colunas presentes no gel de eletroforesepara criar posteriormente uma ferramenta completa paraauxílio do pesquisador.

2. Materiais e Métodos

Todo o acervo utilizado nesse trabalho foi cedido peloLaboratório, e foram utilizadas 11 imagens coloridas, digi-talizadas com 300dpi, no formato JPEG. A quantidade deimagens é reduzida, pois são as coletadas até o momento.

2.1. Descrição Global do Processo

• As imagens passaram por um processo de recortevisando eliminar áreas que não contribuíam para o al-goritmo;

• As imagens originais dos géis foram tratadas com fil-tros de suavização do tipo Gaussiano e Bilateral parapromover o melhoramento das imagens, eliminandoruídos e imperfeições;

• Após as imagens foram transformadas em tons decinza, pois as cores presentes nas imagens não auxi-liaram no processamento;

• Em seguida as imagens foram submetidas a segmen-tação para que fosse possível o algoritmo reconhecer

na imagem às áreas relevantes e também permitir aseparação dos objetos em relação ao fundo;

• Para finalizar, as imagens binárias foram tratadasatravés da morfologia matemática aplicando erosão,dilatação, abertura e fechamento que visavam diminuira quantidade de regiões “brancas”, permitindo ao al-goritmo a identificação das colunas. O elementoestruturante utilizado nessa etapa foi do tipo elipse im-plementado no OpenCV (CV_SHAPE_ELLIPSE) detamanho 7, e foram realizadas 3 iterações. O númerode iterações e tamanho do elemento foram definidosatravés de testes.

O algoritmo foi implementado na linguagem C, comobiblioteca de desenvolvimento foi ultilizado o OpenCV, queé de código aberto e foi desenvolvida na plataforma C e C++e é compatível com uma série de sistemas operacionais etambém pode ser utilizada por várias plataformas ([2], [3],[1]).

2.2. Pré-Processamento

Inicialmente foi aplicado um filtro não-linear, chamadode bi-lateral, visando o realce do contraste e a remoçãode ruído, podendo assim dar mais nitidez as imagens, evi-denciando as regiões que se tinham interesse (Figura 2-B).Após a aplicação do filtro, a imagem foi transformada emtons de cinza, pois nos testes anteriores com as cores os re-sultados foram piores (Figura 2-C). Feito isto, a imagem foisegmentada (binarizada) pelo threshold adaptativo (Figura2-D), para que nas próximas etapas o algoritmo desen-volvido pudesse reconhecer na imagem as áreas relevantes,regiões em branco, e também permitindo a separação dosobjetos em relação ao fundo.

2.3. Processamento de cada Imagem

Foram aplicados recortes das regiões que contém infor-mações úteis em 7 imagens. Algumas imagens estavam in-clinadas e foram submetidas a rotação para minimizar esseefeito, como apresentado na figura 3.

2.4. Identificação do marcador

Após o pré-processamento o algoritmo desenvolvidopercorre toda a imagem binarizada em busca da co-luna que possui mais regiões classificadas como banda, quesão representadas pela cor branca. Ao encontrar as coorde-nadas da região do possível marcador, essas informaçõessão armazenadas. A partir desse ponto a coluna é per-corrida para encontrar a maior sequência de pontos bran-cos na horizontal, tem início pela esquerda da coluna evai até sua direita, buscando dois valores, que são os pon-tos brancos mais distantes da coluna a esquerda e a direita.

Page 3: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

Figura 2. Procedimentos realizados nas ima-gens. Em A) imagem original; em B) imagemcom filtro não-linear; em C) imagem B emtons de cinza e em D) resultado do thresh-old adaptativo.

Figura 3. Exemplo imagem inclinada

Ao término desse mapeamento é estabelecida a região la-teral onde o marcador tem seu início e seu fim. (Figura4-A)

Na terceira etapa, a coluna é novamente analisada, agoratendo a finalidade de encontrar o ponto mais alto e maisbaixo do marcador. Ao final dessa execução obtém-se ascoordenadas que delimitam a região do possível marcador,através disso é possível separá-las do resto da imagem.(Figura 4-B)

Figura 4. Procedimentos Identificação domarcador. Em A) imagem original; em B)threshold adaptativo; em C) após aplicaçãodo operador morfológico e em D) as colunasdelimitadas com linhas azuis.

2.5. Identificação da coluna

O objetivo é encontrar os poços e as colunas das ima-gens, estas regiões são as que serão analisadas em outrasetapas, pois contém as bandas que devem ser processadas.Esse procedimento auxilia na eliminação de partes não re-levantes, fazendo com que seja possível uma classificaçãoapenas nas regiões que se tem maior interesse, ou seja,regiões que realmente possuem material depositado.

A estratégia utilizada foi classificar todas as colu-nas que possuam 100% de pontos pretos como regiãode não-coluna. Entretanto fazendo uso da imagem bina-rizada (Figura 5-B) pelo "threshold"adaptativo isso não foipossível, pois foram poucas as imagens que haviam colu-nas totalmente pretas, já que a parte superior das imagenscontém áreas escuras ou as colunas eram “tortas”.

Dessa forma, foi aplicada uma operação de aberturamorfológica na imagem binarizada para diminuir a quanti-dade de regiões “brancas”, o elemento estruturante utilizadonessa etapa foi do tipo elipse de tamanho 7, e foram re-alizadas 3 iterações (Figura 5-C). A imagem resultante foipercorrida para encontrar as colunas cobertas totalmente porpixels pretos. A quantidade de pixels brancos por coluna foiamostrada em um vetor do tamanho da largura da imagem.Em cada posição o vetor armazenou a quantidade de pon-tos brancos presentes em cada coluna.

O vetor é percorrido e são feitas duas verificações naposição t e em seu vizinho (t+1). A primeira verificação ob-serva se o conteúdo da posição t é igual a zero e se em t+1,existe um valor diferente de zero. Se essas condições foremverdadeiras, a coluna t é validada e armazenada como iní-cio de um poço, pois possui algum ponto que pode ser deum ou mais spots. A segunda verificação, visa encontrar ofinal do poço, e é verificado se a posição atual é diferente dezero e a posição ao lado (t+1) é igual a zero, pois indicariaque a sequência de colunas com pontos brancos deixou deexistir, e o índice t+1 foi armazenado e definido como colu-

Page 4: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

na final daquele poço. Essa etapa é executada enquanto tfor menor que a largura da imagem. Com todo esse pro-cedimento, foi possível localizar as coordenadas de início efim de todas as colunas que possuem bandas permitindo as-sim que só as regiões de interesse sejam processadas futu-ramente (Figura 5-D).

Figura 5. Procedimentos Identificação dascolunas

3. Resultados e Discussão

Os resultados apresentados a seguir foram validados pelaespecialista (Iris Hass), onde foram feitas inúmeras obser-vações, tais como:

• Encontrava o tamanho do marcador corretamente;

• Algoritmo estava encontrando as colunas válidas;

• Demarcando o tamanho das colunas corretamente.

3.1. Resultados com o uso do algoritmo para aidentificação do marcador

Com base nos testes realizados, foi constatado que em 8das 11 imagens utilizadas ou 73%, a metodologia para en-contrar o marcador teve sucesso. Nas outras 3 imagens umfator diferente em cada uma influenciou negativamente o re-sultado final.

No primeiro caso sem sucesso de localizar o marcador(Figura 6-A), o algoritmo não conseguiu percorrer a ima-gem binarizada a partir da coluna que tem mais pontos bran-cos para a esquerda, consequentemente não encontrando omarcador. Como as primeiras linhas da imagem segmen-tada (Figura 6-B) são preenchidas praticamente só com pi-xels brancos, isso fez com que o algoritmo entendesse queo começo do marcador estava nas primeiras colunas da ima-gem.

Figura 6. Resultado errado com o uso do al-goritmo para a identificação do marcador

A imagem da Figura 7-A não pode ser classificada deforma correta devido ao baixo contraste, deixando a seg-mentação ineficaz, não sendo possível distinguir fundo deobjeto. Como pode ser observado na imagem (Figura 7-B), identificou-se apenas algumas regiões que estavam emmaior evidência.

Figura 7. Resultado correto com o uso do al-goritmo para a identificação do marcador

No caso da Figura 8-A, a imagem possuía uma grandequantidade de ruído e manchas, o que confundiu o algo-rítimo ao processar a imagem, fazendo com que reconhe-

Page 5: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

cesse uma outra região, que possuia apenas fragmentos daamostra disposta sobre o gel.

Figura 8. Resultado correto com o uso do al-goritmo para a identificação do marcador

3.2. Resultados com o uso do algoritmo para aidentificação das colunas

Esta etapa obteve uma taxa de acerto de 82%, levando emconsideração o resultado apresentados de cada imagem pro-cessada e validada pelo especialista, como pode ser visto naTabela 1.

Figura 9. Tabela 1 - Resultados com o uso doalgoritmo para a identificação das colunas

Observando a Tabela 1, na Figura 10 (coluna da es-querda) é possível notar que o algoritmo conseguiu encon-trar todas ou pelo menos a maior parte das colunas que e-xistiam nas imagens. O emprego do algoritmo teve grandesucesso, pois os poços estavam alinhados, as imagens ti-nham boa qualidade evidenciando suas informações. O al-goritmo conseguiu encontrar a coluna inicial e final, ondese encontrava a sequência de pontos brancos, de forma bas-tante simples, devido ás regiões estarem preservadas.

Figura 10. Resultados com o uso do algo-ritmo para a identificação das colunas. Nacoluna da esquerda os melhores resultados,na central algumas dificuldades foram en-contradas e na da direita foram os piores re-sultados.

No caso das imagens da Figura 10 coluna central, surgi-ram dificuldades para encontrar as colunas de interesse. Es-sas imagens sofreram interferências devido à quebra do geldurante seu manuseio antes de ser digitalizado, o que influ-enciou diretamente no processo de segmentação, porém osresultados foram superiores a 75% e inferiores a 85% nosacertos das colunas.

Devido à baixa qualidade e o fato da estrutura dos poçosestarem tortas em diferentes regiões, nas imagens da di-reita na Figura 10, a análise do algoritmo ficou compro-metida. Foram encontradas colunas em regiões onde nãoexistiam, ou locais que possuem apenas um poço, são de-tectados como sendo dois, porém ainda assim os resultadosalcançaram 50% dos acertos.

4. Discussão

Os géis utilizados na aquisição do nosso acervo pos-suíam uma consistência mole, fazendo com que durantea fase de aplicação da corrente elétrica os fragmentos sedeslocassem sobre a superfície causando deformações nomaterial e gerando o chamado efeito sorriso na parte infe-rior. Entretanto, onde as informações estavam presentes epreservadas, a metodologia proposta foi capaz de detectar oposicionamento correto das colunas. Merece destaque o fatoque o algoritmo na maioria das vezes encontrou as colunasonde realmente existiam material, e o no fato de fazer a de-

Page 6: Análise Automatizada em Géis de Eletroforese ...iris.sel.eesc.usp.br/wvc/Anais_WVC2012/pdf/97979.pdf · Análise Automatizada em Géis de Eletroforese Unidimensionais (AAGEU). Etapa

limitação adequada do tamanho da coluna.Também é importante que sejam testados outros géis

para encontrar a solução mais eficiente do procedimento.Com imagens mais puras, a análise torna-se menos com-plexa e permite que as ferramentas desenvolvidas atuemcom maior satisfação no auxílio aos pesquisadores.

O AAGEU cumpre uma primeira etapa que é a de lo-calizar o marcador e posteriormente identificar as colu-nas presentes na imagem de eletroforese. Porém, existemproblemas como as marcações de colunas onde não existenenhuma ou a marcação de duas colunas onde existe ape-nas uma. Nos primeiro caso o problema é que a técnica de-senvolvida utiliza um somatório dos pontos brancos paracada coluna da imagem e se existir ao longo da colunaum único ponto branco é considerado com se existisse ummarcador. Já o segundo caso quando aplicamos a morfolo-gia matemática as estruturas de interesse podem de dividire confundir o algoritmo. Contudo, com o aprimoramentoda metodologia desenvolvida, uso de outras técnicas envol-vendo processamento de imagens, fazendo o uso de ima-gens com qualidade e forma de aquisições melhoradas, amaioria desses problemas podem sem resolvidos obtendoassim um maior grau de precisão.

5. Conclusões

Com este trabalho foi possível demonstrar que a de-tecção do marcador e a marcação das colunas são viáveisfazendo uso de um método simples e de rápida execuçãoque está baseada em alguns procedimentos de aprimora-mento da imagem, como:

• Recortes das imagens;

• Aplicação de filtros de suavização;

• Transformação das imagens em tons de cinza;

• Na binarização das imagens;

• Utilização de operações morfológicas;

• Contagem de valores brancos ou pretos.

Ainda existem algumas limitações envolvendo a quali-dade da imagem adquirida, pois como mostrado nos resul-tados não existe um padrão nas cores e existem muitos fa-tores, tais como:

• Deformação do gel que dificultam a detecção das colu-nas e/ou dos marcadores;

• Contraste da imagem;

• Manchas no gel;

• Rachaduras no gel.

Referências

[1] G. Bradski and A. Kaehler. Learning OpenCV. O’reilly, 2008.[2] O. M. Filho and H. V. Neto. Processamento Digital de Ima-

gens. Brasport, 1999.[3] R. C. Gonzales and R. E. Woods. Processamento de Imagens

Digitais. Edgard Blücher, 2000.[4] L. A. L., N. D. L., and C. M.M. Princípios de Bioquímica.

Sarvier, 2002.[5] P. P. M., W. D., B. G., V. S., and A. R. D. Image Analysis and

Quantitation, Cell Biology : A Laboratory Handbook. 2005.[6] B. Schmidt. Bioinformatics: High perfomance parallel com-

puter architectures. CRC Press, 2010.