a biologia na era da computação 2 · • criação de gifs animados, jpeg, ps e vrml. • acessos...
TRANSCRIPT
A Biologia na Era da Computação
Hugo Brandão UchôaLaboratório de Sistemas Biomoleculares
IBILCE-UNESP
Tópicos
• Motivação• Áreas da Computação• Parmodel• BioLinux• MyODB• Conclusão
Motivação
• Grande desenvolvimento da computação.
• Aplicação nas mais diversas áreas do conhecimento humano.
• Extremamente útil para a biologia molecular.
Motivação
• Grande desenvolvimento da Biologia Molecular.
• Enorme quantidade de dados que necessitam ser armazenados e analisados.
Motivação
Motivação
• Surge o termo Bioinformática:
“Desenvolvimento e utilização de técnicas computacionais na resolução de problemas biológicos”
Motivação
• Pode ser dividida em duas partes:
– Desenvolvimento das ferramentas.
– Utilização das ferramentas.
Áreas da Computação
– Computação de Alto Desempenho– Banco de Dados – Computação Científica – Sistemas Operacionais– Redes Neurais
Áreas da Computação
• Computação de Alto Desempenho
– Surge da necessidade de maior poder computacional para a resolução de problemas de Biologia Estrutural
Áreas da Computação
Áreas da Computação
• Solução:
– Utilização de computadores que operam em paralelo (Clusters)
– Aplicação de técnicas de Programação Paralela para portar os programas a esta nova arquitetura
Áreas da Computação
• Bancos de Dados
– Grande massa de dados gerada.
– Armazenamento realizado em Bancos de Dados.
– Integração com ferramentas WEB para disponibilizar estes dados
Áreas da Computação
• Computação Científica
– Aplicação de computação na resolução de problemas científicos.
– Alinhamento de seqüências.
Áreas da Computação
• Sistemas Operacionais
– Utilização do Sistema Operacional Linux
– Necessidade de modificar este sistema para direcioná-lo à aplicações de biologia estrutural
– Facilitar a vida do usuário
Áreas da Computação
• Redes Neurais
– Simulam os neurônios e são utilizadas nas mais diversas aplicações
– Podem ser utilizadas para predizer estruturas secundárias de proteínas
Ferramentas do BMSys
• Objetivos:– Automatizar e paralelizar programas existentes;– Criação de interfaces amigáveis com acesso
pela WEB;– Desenvolvimento de novas ferramentas e bases
de dados;– Facilitar a vida dos biólogos;
Ferramentas do BMSys
• Parmodel;
• BioLinux;
• MyODB;
Parmodel
Nem sempre é possível determinar a estrutura terciária de uma proteína através de métodos experimentais.
Necessidade de usar técnicas computacionais para a construção de modelos.
Principal técnica: modelagem molecular por homologia.
Parmodel
Utilização do software Modeller (Sali & Blundell, 1993).
Processo não automatizado que envolve várias etapas.
Modelagem e análise demanda um tempo considerável.
Necessário realizar a análise e visualização dos modelos
Parmodel
• Criação do Parmodel - pipeline que permite a execução de todas as etapas da modelagem molecular por homologia:– Criação dos Modelos;– Avaliação;– Otimização;– Visualização;
Parmodel Modeling
- Identificação do paralelismo;- Escolha do estilo de paralelismo;- Desenvolvimento do algoritmo; - Escolha de uma linguagem de programação;
Parmodel Modeling
• Identificação do paralelismo:
Parmodel Modeling
• Escolha do estilo de paralelismo:
- Optou-se pelo modelo de paralelismo bag of tasks
- Caracteriza pela existência de um processo gerente que distribui tarefas aos processos trabalhadores
Parmodel Modeling
• Vantagens do bag of tasks:
- Balanceamento de carga;
- Escalabilidade;
Parmodel Modeling
Trab.1 Trab. 2 Trab. 3 Trab. 4 Trab.15
Gerente UsuárioInternetDados na Página
AlinhamentoOrdena Nmodelos
Requisita modelagem
Envia número e semente
Envia result. da análise
Parmodel Modeling
• Desenvolvimento do programa através de uma linguagem:
- A linguagem utilizada foi o C.
- Utilização da biblioteca de troca de mensagens MPI (Message PassingInterface).
Parmodel Modeling
MPI é um modelo de interface de troca de mensagens para computadores que utilizam memória distribuída.
O MPI utiliza o paradigma SPMD (SingleProgram Multiple Data) onde cada processo executa o mesmo programa.
Parmodel Assessment
• Análise dos Modelos:– Procheck;
– 3DAnalysis;
– Whatcheck;
Parmodel Assessment
• Procheck:– Checa a qualidade estereoquímica da estrutura;– Construção do mapa de Ramachandran;– Importante na modelagem e na resolução de
estruturas de proteínas;
Parmodel Assessment
Procheck:
Parmodel Assessment
Procheck:
Parmodel Assessment
• 3DAnalysis:– Relaciona a estrutura tridimensional de uma
proteína com sua seqüência de aminoácidos;
– Permite saber se o modelo tridimensional condiz com a “preferência” de cada aminoácido;
Parmodel Assessment
• 3DAnalysis:- Classifica a qualidade dos modelos de acordo com os scores dos aminoácidos;
Score Ideal:
Sideal= exp(-0.83 + 1.008xln(L))
onde L= Número de aminoácidos
Parmodel Assessment
• 3DAnalysis:
Parmodel Assessment
• Whatcheck:
– Gera um relatório completo com várias análises da proteína;
– Informações relativas à qualidade estereoquímica e RMSD.
Parmodel Optimization
• Permite realizar a otimização dos modelos através da utilização do software GROMACS.
• Processo realizado através da minimização de energia da molécula.
• Nem sempre o modelo final melhora.
Parmodel Visualization
• Permite visualizar a estrutura secundária do modelo final.
• Criação de gifs animados, jpeg, ps e VRML.
• Acessos do mundo todo.
Parmodel Visualization
Parmodel Database
• Os 20 melhores modelos de cada modelagem podem ser obtidos através desta base de dados;
• Atualmente conta com 12.000 modelos;
Parmodel
• Resultados:– Permite executar modelagem, avaliação,
otimização e visualização dos modelos de forma automática;
– Diminui tempo de execução do Modeller;– Aumenta a chance de se obter bons modelos;– Acessível de qualquer lugar;
BioLinux-BR
Modificação do SO Linux incorporando ferramentas de bioinformática
Biolinux-BR
• Inexperiência dos usuários;
• Uso incorreto de aplicativos;
• Baixo nível de facilidade;
• Instalação de aplicativos de modo incorreto.
BioWindows?
Linux é difícil?
Características do Linux
• Multitarefa;• Estável;• Confiável;• Seguro;• Alto desempenho;• Suporte à redes;
BioLinux-BR
BioLinux-BR
• Facilidade de uso;
• Boot direto do CD;
• Reconhecimento automático de hardware;
• Programas pré-instalados e configurados;
• Atualizações de maneira simplificada.
BioLinux-BR
• Capacidade de instalar no HD;
• Fácil e rápido;
• Problema: não há como escapar de
particionar o disco.
BioLinux-BR
• Cientistas e pesquisadores de bioinformática;
• Usuários pouco familiarizados com a instalação de sistemas operacionais;
MyODB
• MyODB (My Own DataBase)• Ferramenta que possibilita a construção de
banco de dados do ponto de vista biológico através de busca por palavras chaves.
• Conjunto de 12 tabelas correlacionadas com dados específicos para as necessidades do usuário.
MyODB
MyODB
Scripts 02
üFiltrageme organizaçãodas informações (dados).üDados filtrados e organizados.
Scripts 03
üInserção dos dados nas tabelas correlacionadas.
üGrande quantidade de dados
Scripts 01
üBusca das informações por palavras chaves.
Banco de Dados
GenBankPDB
GenBank
ü Espéciesü Seqüências- DNA - Proteínas- EST
PDB
ü Estrutura
Nova tentativa
Paralelização
MyODB
Conclusão
• A bioinformática é uma área nova e está em ascensão.
• Existem muitos problemas que ainda podem ser resolvidos ou cuja a resolução pode ser aprimorada com a ajuda de técnicas computacionais.
Conclusão
http://www.biocristalografia.df.ibilce.unesp.br/tools/
FIM