bio python

Download Bio python

Post on 10-Jun-2015

1.667 views

Category:

Documents

1 download

Embed Size (px)

DESCRIPTION

Presentation in PUG-PE on 11/06

TRANSCRIPT

  • 1. Pricles Mirandapericlesmiranda@gmail.com

2. Quem sou eu? Engenheiro da Computao - UPE Mestrando em CC UFPE Interesse em Web, mvel e IA pbcm.wordpress.com Pricles Miranda periclesmiranda@gmail.com 3. Importncia biolgica Medicina {Diagnstico e tratamento} Farmcia {desenvolvimento de novosfrmacos} Agricultura {aumento da qualidade eprodutividade dos alimentos}Pricles Mirandapericlesmiranda@gmail.com 4. Importncia biolgica Genmica Anlise, edio e manipulao Protemica 5. Problemas na Biologia? A biologia possui muitos problemas: Comparao de sequncias; Mapemento de sequncias; Identificao de regies conservadas; Identificao de novas espcies; Anlise de doenas.Pricles Mirandapericlesmiranda@gmail.com 6. Computao solucionando problemasPricles Mirandapericlesmiranda@gmail.com 7. Solues Bioinformtica: Desenvolvimento de novos algoritmos e tcnicasestatsticas para encontrar relacionamentos entreatributos em grandes conjuntos de dados; Aplicao de ferramentas {implementam AM} decomputao e anlise para captura e interpretao dedados biolgicos; Desenvolvimento e implementao de ferramentasque possibilitem o gerenciamento e acesso eficientesde vrios tipos de informao. Pricles Miranda periclesmiranda@gmail.com 8. Solues BLAST Ferramenta de comparao desequncias ; Gera relatrios textuais e grficos; Integrado com vrios repositrios; Documentao que tende completude; Disponibiliza API.Pricles Mirandapericlesmiranda@gmail.com 9. SoluesBiologiaPython BioPython Pricles Miranda periclesmiranda@gmail.com 10. BioPython um conjunto de ferramentas disponveispara computao biolgica; Agrega bibliotecas e aplicaes que satisfazemas necessidades da bioinformtica; O cdigo fonte est disponvel.Pricles Mirandapericlesmiranda@gmail.com 11. BioPython Converte arquivos em formatos da bioinformtica paraobjetos do tipo dicionrio: Blast FASTA GenBank PubMed e Medline UniGene SwissProt Interfaces com os programas mais usados nabioinformtica: NCBI Programa de alinhamento Clustalw Ferramentas de linha de comando EMBOSSPricles Mirandapericlesmiranda@gmail.com 12. BioPython A classe Sequence lida com sequncias e suascaractersticas; Ferramentas que operam sobre sequncias:traduo, transcrio e clculo de pesos; lassificadores usando k-NN, Naive Bayes ouSVM; Gerao de alinhamentos, e definio de matrizesde pesos; Programas baseados em Interface grfica; Integrao com o BioSQL. Pricles Miranda periclesmiranda@gmail.com 13. Na Prtica>>> from Bio.Seq import Seq>>> my_seq = Seq("AGTACACTGGT")>>> my_seqSeq(AGTACACTGGT, Alphabet())>>> print my_seqAGTACACTGGTPricles Mirandapericlesmiranda@gmail.com 14. Na Prtica>>> seq1 = Seq(AGTACACTGGT, Alphabet())>>> seq1.complement()Seq(TCATGTGACCA,Alphabet())>>> seq1.reverse_complement()Seq(ACCAGTGTACT, Alphabet())>>> str(seq1)AGTACACTGGTPricles Mirandapericlesmiranda@gmail.com 15. Na Prtica>>> from Bio.Seq import Seq>>> from Bio.Alphabet import IUPAC>>> my_prot = Seq("AGUACACUGGU", IUPAC.protein)>>> my_protSeq(AGUACACUGGU, IUPACProtein())>>> my_prot.alphabetIUPACProtein() Pricles Miranda periclesmiranda@gmail.com 16. Na Prticafrom Bio import SeqIOfor seq_record in SeqIO.parse("ls_orchid.fasta","fasta"): print seq_record.id print repr(seq_record.seq) print len(seq_record)Sada:gi|2765658|emb|Z78533.1|CIZ78533Seq(CGTAACAAGGTTTCCGTAGGTGCGTGG...CGC, SingleLetterAlphabet())740...gi|2765564|emb|Z78439.1|PBZ78439Seq(CATTGTTGAGATCACATAATAATTGATCT...GCC, SingleLetterAlphabet())592Pricles Mirandapericlesmiranda@gmail.com 17. Na Prtica>>> from Bio import SeqIO>>> record = SeqIO.read("NC_005816.gb", "genbank")>>> recordSeqRecord(seq=Seq(TGT...CTGTAGA, IUPACDNA()),id=NC_005816.1,name=NC_005816,description=Microtus str. 91001 plasmid pPCP1,dbxrefs=[Project:10638])Pricles Mirandapericlesmiranda@gmail.com 18. Na Prtica>>> coding_dnaSeq(ATGGCCATTGG, IUPACUnambiguousDNA())>>> messenger_rna = coding_dna.transcribe()>>> messenger_rnaSeq(AUGGCCAUUG, IUPACUnambiguousRNA())Pricles Mirandapericlesmiranda@gmail.com 19. Na Prtica>>> messenger_rnaSeq("AUGGCCAUUG", IUPAC.unambiguous_rna)>>> messenger_rna.translate()Seq(MAIVMGR*KGAR*, HasStopCodon(IUPACProtein(), *)) Pricles Miranda periclesmiranda@gmail.com 20. Na Prtica Existe uma srie de algoritmos biolgicos; A ideia no que o usurio os reimplemente; Existem programas, acessveis ao BioPython, querealiza o trabalho por voc.>>> import Bio.Align.Applications>>> dir(Bio.Align.Applications)...[ClustalwCommandline, DialignCommandline,MafftCommandline, MuscleCommandline,PrankCommandline, ProbconsCommandline,TCoffeeCommandline ...] Pricles Miranda periclesmiranda@gmail.com 21. Na PrticaUsando o programa para alinhamento:>>> from Bio.Align.Applications import ClustalwCommandline>>> cline = ClustalwCommandline("clustalw2",infile="opuntia.fasta") Pricles Miranda periclesmiranda@gmail.com 22. Na PrticaAlinhamento no BLAST:>>> from Bio.Blast import NCBIWWW>>> fasta_string = open("m_cold.fasta").read()>>> result_handle = NCBIWWW.qblast("blastn", "nr", fasta_string)>>> from Bio.Blast.Applications import NcbiblastxCommandline>>> blastx_cline = NcbiblastxCommandline(query="opuntia.fasta",db="nr", evalue=0.001, ... outfmt=5, out="opuntia.xml")Pricles Mirandapericlesmiranda@gmail.com 23. Na Prtica Buscando o lineage do organismo:>>> from Bio import Entrez>>> handle = Entrez.esearch(db="Taxonomy",term="Cypripedioideae")>>> records[0].keys() [uLineage, uDivision, uParentTaxId,uPubDate, uLineageEx, uCreateDate, uTaxId, uRank,uGeneticCode, uScientificName, uMitoGeneticCode,uUpdateDate]>>> records[0]["Lineage"] cellular organisms; Eukaryota; Viridiplantae;Streptophyta; Streptophytina; Embryophyta; Tracheophyta;Euphyllophyta; Spermatophyta; Magnoliophyta; Liliopsida;Asparagales; Orchidaceae Pricles Miranda periclesmiranda@gmail.com 24. Na Prtica Suporte 3D; PyMol. Pricles Miranda periclesmiranda@gmail.com 25. Material http://biopython.org/ Tutorial Downloads Samples Fruns Documentao Repositrio no Github 26. Pricles Mirandapericlesmiranda@gmail.com