prova de admissão do programa inter-unidades em ... · caso deseje, você pode responder as 12...

9
Prova de Admissão do Programa Inter-unidades em Bioinformática 13 de Junho de 2016. NOME: _______________________________________________________ A prova contém 36 (trinta e seis) questões divididas em 3 (três) áreas do conhecimento (matemática/estatística, ciência da computação, ciências biológicas). Você deverá responder um total de 12 (doze) questões, sendo obrigatoriamente um mínimo de 8 (oito) de uma única área do conhecimento. Caso deseje, você pode responder as 12 (doze) questões de uma área, se preferir, pode também responder 8 (oito) questões de uma área e 4 (quatro) de outra(s) área(s). Boa prova! Duração: 4 horas Questões da Área de Matemática e Estatística 1. Considere a função : (, ) ! ! . a) Obtenha a expansão de Taylor de segunda ordem para a função (, ) centralizada no valor esperado de e , isto é, () e () , respectivamente. b) Na análise de expressão gênica comparando as respostas de dois tecidos, e , com e positivos, uma medida de genes diferencialmente expressos é dada por: = , = log ! log ! () Usando os resultados do item anterior, obtenha a expansão de Taylor de segunda ordem para a função (). Nota: A variância de , variância de e covariância entre e são dados por: = ( ()) ! = ( ()) ! , = ( ())( ()) 2. Encontre os intervalos de convergência para as séries de Taylor a seguir: a) = ! . b) = ln (). 3. A forma quadrática é chamada positiva definida se a matriz é positiva definida.

Upload: buituong

Post on 17-Dec-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Prova de Admissão do Programa Inter-unidades em Bioinformática

13 de Junho de 2016. NOME: _______________________________________________________ A prova contém 36 (trinta e seis) questões divididas em 3 (três) áreas do conhecimento (matemática/estatística, ciência da computação, ciências biológicas). Você deverá responder um total de 12 (doze) questões, sendo obrigatoriamente um mínimo de 8 (oito) de uma única área do conhecimento. Caso deseje, você pode responder as 12 (doze) questões de uma área, se preferir, pode também responder 8 (oito) questões de uma área e 4 (quatro) de outra(s) área(s). Boa prova! Duração: 4 horas

Questões da Área de Matemática e Estatística 1. Considere a função 𝑓: (𝑅,𝐺) ∈ ℜ! → ℜ!.

a) Obtenha a expansão de Taylor de segunda ordem para a função 𝑓(𝑅,𝐺) centralizada no valor esperado de 𝑅 e 𝐺 , isto é, 𝐸(𝑅) e 𝐸(𝐺) , respectivamente.

b) Na análise de expressão gênica comparando as respostas de dois

tecidos, 𝑅 e 𝐺, com 𝑅 e 𝐺 positivos, uma medida de genes diferencialmente expressos é dada por:

𝑀 = 𝑓 𝑅,𝐺 = log! 𝑅 − log!  (𝐺) Usando os resultados do item anterior, obtenha a expansão de Taylor

de segunda ordem para a função 𝐸(𝑀). Nota: A variância de 𝑅, variância de 𝐺 e covariância entre 𝑅 e 𝐺 são dados por:

𝑉𝑎𝑟 𝑅 = 𝐸(𝑅 − 𝐸(𝑅))! 𝑉𝑎𝑟 𝐺 = 𝐸(𝐺 − 𝐸(𝐺))!

𝐶𝑜𝑣 𝑅,𝐺 = 𝐸(𝑅 − 𝐸(𝑅))(𝐺 − 𝐸(𝐺)) 2. Encontre os intervalos de convergência para as séries de Taylor a seguir:

a) 𝑔 𝑡 = 𝑒!. b) 𝑔 𝑡 = ln  (𝑡).

3. A forma quadrática 𝑥′𝐴𝑥 é chamada positiva definida se a matriz 𝐴 é positiva definida.

a) Determine a matriz 𝐴 associada à forma quadrática 𝑓 𝑥!, 𝑥! =

3𝑥!! + 3𝑥!! + 2𝑥!𝑥!.

b) Verifique se a forma quadrática 𝑓 𝑥!, 𝑥! é positiva definida. 4. Um neurocientista acredita que a atividade elétrica de neurônios varia de acordo com diferentes regiões do cérebro humano. A tabela a seguir apresenta estatísticas descritivas (média, desvio padrão (DP) e mediana) da atividade elétrica (variável 𝑌, medida em Hz) de 25 neurônios localizados em seis regiões cerebrais.

Região Média DP Mediana 1 33,8 50,4 17 2 68,7 125,4 10 3 50,6 107,4 5 4 9,2 17,39 2 5 10,0 19,84 2 6 12,6 23,01 4

Comente as afirmações a seguir:

a) Independentemente da região cerebral a distribuição de  𝑌 é

simétrica. b) Os dois primeiros momentos da variável 𝑌 não variam com a região

cerebral.

c) Considerando o coeficiente de variação (CV), a região 2 é a que tem maior variabilidade na atividade elétrica dos neurônios.

5. A partir de uma amostra aleatória de tamanho 16 extraída de uma população 𝑁(𝜇,𝜎!) deseja-se testar a hipótese H!: 𝜇 = 22 contra a alternativa H!: 𝜇 ≠ 22 . Para isso, obtém-se a média amostral 𝑥 = 30 e a variância amostral 𝑠! = 100.

a) Obtenha a distribuição amostral da estatística 𝑥. b) Obtenha o correspondente nível descritivo (valor p) do teste. Qual a

conclusão do teste? (Nota: 𝑃 𝑡!" ≤ 2,131 = 0.975).

6. Seja 𝑌 = (𝑌!,𝑌!)′ vetor de variáveis aleatórias com matriz de covariâncias igual a:

Σ = 1 𝜌𝜌 1 ; 𝜌 > 0.

a) Obtenha os componentes principais, 𝑍! e 𝑍!, de Σ. (Nota: Σ = PΛP′;

𝑍 = 𝑃′𝑌) b) Mostre que o traço e o determinante de Σ são dados por:

𝑡𝑟 Σ = 𝑉 𝑍! + 𝑉(𝑍!) e Σ = 𝑉 𝑍! 𝑉(𝑍!) Para as questões 7, 8 e 9 considere o sistema de equações diferenciais abaixo:

𝑦 𝑡 = 𝑥(𝑡)𝑥 𝑡 = −𝑘.𝑦(𝑡)

onde 𝑘 > 0. 7. Demonstre que 𝑦 𝑡 = cos 𝑘 . 𝑡 é solução. 8. Calcule os autovalores do sistema e comente sobre a estabilidade. 9. Comente se pode haver sistema (bio)químico com exatamente esse sistema de equações diferenciais como equações cinéticas. Pode tomar como exemplo a reação reversível monomolecular:

Para as questões 10, 11 e 12, considere as variáveis aleatórias 𝑋! e 𝑋! independentes e identicamente distribuídas com função de distribuição de probabilidade exponencial: 𝑓 𝑥! 𝛽! = 𝛽! . 𝑒!!!! onde 𝛽! > 0 e 𝑥! > 0. 10. Dê a função de distribuição de probabilidade conjunta de 𝑋!,𝑋!. 11. Qual a distribuição de probabilidade da variável 𝑌! = (𝑋! − 𝑋!)! , explicitamente: 𝑔(𝑦!|𝛽!,𝛽!) . Dica: use 𝑔 𝑦!,𝑦! = 𝑔 𝑠!, 𝑠! |𝐽| onde 𝐽 é o Jacobiano de 𝑠! . Explique os passos, mesmo que não consiga fazer as contas. 12. A função de distribuição de probabilidade 𝑌! é exponencial? Justifique.

Questões da Área de Ciência da Computação

1. Mostre como usar uma tabela de espalhamento para ordenar em tempo esperado 𝑂(𝑛) um vetor com 𝑛 números aleatórios no intervalo [1,𝑛!]. Justifique detalhadamente sua resposta. 2. Considere um conjunto de dados organizado em uma árvore de busca binária por uma chave. Escreva uma função que dados dois elementos 𝑥 e 𝑦, com 𝑥 ≤ 𝑦 do conjunto, lista todos os elementos que estão no intervalo [𝑥,𝑦]. 3. Considere um digrafo (grafo dirigido) 𝐷 = (𝑉,𝐴) . Escreva um algoritmo que determina se o digrafo é acíclico, ou seja, admite uma ordenação topológica. 4. O que significa dizer que um problema está em co-NP? Existem problemas na intersecção de NP com co-NP? 5. Descreva como é o cálculo do endereço real a partir de um endereço virtual em um sistema segmentado E paginado com Translation Lookaside Buffer (TLB). Faça um diagrama para ilustrar. Porque o, embora geralmente tão pequeno (em geral menos de 64 entradas), tem um papel tão fundamental no desempenho destes sistemas, mesmo os multiprogramados? 6. Dois dos sistemas de arquivos de estrutura mais conhecida são o FAT32 desenvolvido para sistemas Microsoft e o sistema de i-nodes, desenvolvido para a família Unix de sistemas. Desenhe a estrutura básica de cada um deles e compare as vantagens e desvantagens de cada um. 7. O que é um processo? Qual a diferença entre processos e threads? O sistema de escalonamento de filas múltiplas com retroalimentação (multi-level feedback queues) tem como objetivo possibilitar ao sistema gerenciar bem tanto processos com muito uso de entrada e saída, em particular processos iterativos, como aqueles com uso intensivo de CPU. Como funciona este escalonamento? Como ele garante que um processo que tem fases de alto processamento e fases interativas é escalonado de maneira adequada? 8. Sistemas operacionais podem ser organizados de várias maneiras, entre elas: monolítica, em camadas, cliente-servidor. Descreva cada uma destas arquiteturas, indique suas vantagens/desvantagens.

9. No gerenciamento de dados, quais são as vantagens do uso de Sistemas Gerenciadores de Bancos de Dados (SGBDs) de propósito geral em comparação ao uso da abordagem de processamento de arquivos, em que, para cada aplicação de software específica, define-se e implementa-se os arquivos necessários para a manutenção dos dados como parte da programação da aplicação. 10. Cite e explique três tipos de restrições que podem ser explicitamente definidas sobre os dados armazenados em um banco de dados relacional. 11. Faça um diagrama conceitual usando o modelo de dados Entidade-Relacionamento (ER) ou Entidade-Relacionamento Estendido (EER) para um banco de dados de uma farmácia. Esse banco de dados deve manter informações sobre:

• medicamentos (que são vendidos na farmácia), seus laboratórios fabricantes e as substâncias que os compõem;

• efeitos indicados das substâncias (por exemplo, contra cefaleia pode-se tomar a substância ácido acetilsalicílico -- AAS -- ou tomar dipirona);

• efeitos colaterais das substâncias (por exemplo, AAS pode provocar hemorragia gástrica, síndrome de Reye em crianças, etc.);

• precauções de uso das substâncias (por exemplo, se há gastrite, não se deve tomar AAS);

• interação entre as substâncias, que produz efeitos indicados, efeitos colaterais (por exemplo, guaraná com whisky -- supondo serem substâncias -- quando misturados dão dor de barriga) e precauções. A interação pode ser de mais de duas substâncias.

O BD deve manter também informações sobre as prescrições médicas

dos clientes da farmácia. Todo cliente tem um médico principal e todo médico tem no mínimo um cliente. Os médicos prescrevem medicamentos para seus clientes. Um cliente pode obter prescrições de diversos médicos. Cada prescrição tem uma data e uma quantidade. Um médico pode prescrever um dado medicamento para um dado cliente mais do que uma vez.

O BD não deve manter informações sobre as vendas realizadas na farmácia.

Em seu diagrama, inclua os atributos que forem pertinentes. Não se esqueça de indicar no diagrama todas as restrições do BD possíveis de serem expressas em um modelo ER (ou EER).

12. Considere as relações a seguir, pertencentes a um banco de dados de sequências de proteínas e de suas anotações funcionais:

PROTEINA(idProteina:integer, nomeProteina:string, sequencia:string, idTaxonomia:integer, dataCadastro:date) TAXONOMIA(idTaxonomia:integer, nomeEspecie:string) FUNCAO(idFuncao:integer, nomeFuncao:string, descricao:string)

FUNCAO_PROTEINA(idProteina:integer, idFuncao:integer}, posInicioSeq:integer, posFimSeq:integer) O atributo PROTEINA.idTaxonomia é uma chave estrangeira para a

relação TAXONOMIA; o atributo FUNCAO_PROTEINA.idProteina é uma chave estrangeira para a relação PROTEINA; e o atributo FUNCAO_PROTEINA.idFuncao é uma chave estrangeira para a relação FUNCAO.

Cada tupla na relação FUNCAO_PROTEINA associa uma proteína a uma função já identificada nela. Os atributos FUNCAO_PROTEINA.posInicioSeq e FUNCAO_PROTEINA.posFimSeq delimitam o trecho da sequência da proteína onde a função foi identificada.

Usando como base as relações acima, escreva cada uma das seguintes consultas em SQL:

a. Obter os identificadores e as sequências das proteínas

cadastradas no banco de dados a partir de abril de 2016.

b. Listar todos os pares do tipo (𝑖, 𝑗) onde 𝑖 é o nome de uma proteína e 𝑗 é o nome de uma função associada a ela. A listagem deve vir ordenada crescentemente pelo nome da proteína.

c. Para cada espécie, mostrar o nome da espécie e a quantidade de

sequências de proteína já cadastradas para ela. Uma espécie não precisa aparecer na resposta se ela não possuir nenhuma sequência de proteína.

Questões da Área de Ciências Biológicas

1. Um estudante iniciou o seu estágio em um laboratório de bioquímica. Como uma das primeira tarefas, o seu supervisor de estágio pediu que ele verificasse o efeito da temperatura na velocidade da reação catalisada por uma enzima. Sugeriu que o estudante medisse a velocidade da reação entre as temperaturas de 15,0 oC e 45,0 oC, em intervalos de 2,5 oC. Dias depois, o estudante apresentou o resultado de seu experimento, já analisado com o emprego de uma regressão linear com um pacote estatístico. O estudante concluiu, em seu relatório, que a velocidade da reação da enzima não era afetada pela temperatura, baseado na análise de regressão realizado. O supervisor estranhou a conclusão e pediu que o estudante analisasse mais atentamente os seus resultados, pois o efeito da temperatura na velocidade da reação segue normalmente um padrão bem estabelecido, diferente daquele relatado.

a) Qual é o padrão normalmente esperado para os resultados desse

tipo de experimento? O que deve ter acontecido para que o estudante apresentasse suas conclusões fora daquilo que seria normalmente esperado em um experimento dessa natureza?

b) O que acontece, no âmbito da físico-química de reação catalisada e da sua relação com as forças que mantém a estrutura das enzimas para que o efeito da temperatura tenha um comportamento que segue normalmente o padrão mencionado acima?

2. Em um exame de ingresso para um curso sobre Bioinformática avançado, um dos candidatos escreveu sobre o tema proposto "Comparação entre sequências de ácidos nucleicos", constando o seguinte trecho em sua resposta:

(...)Quando duas sequências de RNA são comparadas, usamos as letras A, T, G e C que correspondem, respectivamente, às bases nitrogenadas "adenina", "timina", "guanina" e "citosina" presentes nos ribonucleotídeos. Assim como no caso do DNA, as cadeias são apresentadas no sentido 3'-5' por convenção. Se as duas sequências tiverem tamanhos diferentes, adota-se o procedimento chamado "alinhamento", onde se distribuem lacunas ("gaps" em inglês) correspondentes aos eventos de "indel" (inserção/deleção) que teria ocorrido na evolução dessas sequências desde o ancestral comum de tal forma que a soma das penalidades de abertura de lacuna, extensão de lacuna e de substituição de ribonucleotídeos seja a máxima. A homologia entre as sequências pode ser calculada pela proporção de bases idênticas nas sequências alinhadas, contando-se ou não as posições onde há lacunas. Duas sequências geradas ao

acaso, com proporções iguais dos diferentes nucleotídeos terão, em média, 20% de homologia. (...)

Aponte cinco erros do trecho acima e explique o que deveria estar

escrito se o texto estivesse correto. 3. RNAs mensageiros produzidos em células eucarióticas podem sofrer diversos tipos de processamento após a transcrição antes de serem traduzidos em proteínas. Indique as três principais modificações pós-transcricionais encontradas em mRNAs e quais as suas funções. 4. Defina os níveis de organização das proteínas, indicando quais as principais interações moleculares responsáveis para a sua manutenção e as possíveis contribuições da Bioinformática em cada um desses níveis. 5. Podemos definir estudo de associação clássico como a busca de associação de um polimorfismo de base única (do inglês single nucleotide polymorphism ou SNP) e um endofenótipo ou fenótipo especifico. Por exemplo, imagine que queremos associar um dado SNP (digamos AA, AT ou TT) com aumento do colesterol. Para buscar esta associação, é necessário sequenciar X casos (alto colesterol) e Y controles (baixo colesterol), contar as frequências dos alelos em casos e controles e calcular a associação usando, por exemplo, um chi-quadrado. Com o avanço das técnicas de sequenciamento e o depósito dos dados em bancos de dados públicos, foi possível perceber que existem relações de dependência entre os SNPs em dada população. Os SNPs estão agrupados em blocos de Desequilíbrio de Ligação (LD) (ex: dado que o SNP 1 tem o alelo A, podemos observar que o SNP 2, localizado dentro do mesmo bloco, tem 90% de chance de ter o alelo T nesta população). Isso nos permitiu sair da era dos estudos de associação com hipóteses a priori e passar a olhar um milhão de SNPs, sabendo que estes SNPs representam na verdade blocos de SNPs a ele associado ou em LD. Assim passamos a falar em Genome Wide Association Scan (GWAS), que teoricamente representam o genoma inteiro e nada mais é do que vários estudos de associação realizados de uma única vez, dado que um milhão de SNPs são avaliados ao mesmo tempo. Mesmo assim, quando descobrimos um SNP em um estudo de associação, na verdade não podemos afirmar que o SNP encontrado é a causa do fenótipo.

a. Por que estudos de GWAS e análises de SNPs envolvem muitas

amostras? b. Por que geralmente há a necessidade de se analisar mais de 1

SNP? c. Por que a associação muitas vezes não é causal?

6. A sequência de DNA dupla-fita abaixo representa uma região que contem um gene hipotético de uma célula. O início da transcrição está marcado pela seta curvada a direita e o final da transcrição marcado pela seta apontando para baixo. Qual a sequência de RNA produzida (escreva na direção 5'-3')? Quais os possíveis efeitos de mutações na região promotora deste gene?

7. O BLAST é um programa para a busca de similaridade entre sequências de DNA ou de proteínas. Discuta que tipos de perguntas biológicas podem ser respondidas por essa abordagem. 8. Explique o que são bibliotecas genômicas e bibliotecas de cDNA e quais são as aplicações de cada uma em estudos de biologia molecular. 9. Explique o que é o dogma central da biologia molecular e compare as etapas presentes em eucariotos/procariotos com aquelas que podem ser encontradas em vírus de fita simples e fita dupla de RNA e DNA. 10. Descreva e compare o processo de transcrição em eucariotos e procariotos, enfatizando as diferenças entre esses organismos. 11. O código genético é degenerado. Explique a base molecular dessa característica e suas implicações evolutivas em sequências nucleotídicas e proteicas. 12. Explique os diferentes níveis estruturais que podem ser encontrados em proteínas e os vários tipos de interações entre resíduos de aminoácidos que contribuem para estabilizar a estrutura nativa de proteínas.