Download - VARIAÇÕES RARAS NO GENOMA DE PACIENTES COM … · AGRADECIMENTOS Agradeço ao Euripedes Constantino Miguel, meu orientador, que sempre confiou neste trabalho e me deu as melhores

CAROLINA CAPPI

VARIAÇÕES RARAS NO GENOMA DE PACIENTES

COM TRANSTORNO OBSESSIVO-COMPULSIVO

Tese apresentada à Faculdade de Medicina da Universidade de São Paulo para a obtenção de título de Doutor em Ciências

Programa de Psiquiatria

Orientador: Prof. Dr. Euripedes Constantino Miguel

São Paulo

2013

Dados Internacionais de Catalogação na Publicação (CIP)

Preparada pela Biblioteca da Faculdade de Medicina da Universidade de São Paulo

©reprodução autorizada pelo autor

Cappi, Carolina Variações raras no genoma de pacientes com transtorno obsessivo-compulsivo / Carolina Cappi. -- São Paulo, 2013.

Tese(doutorado)--Faculdade de Medicina da Universidade de São Paulo. Programa de Psiquiatria.

Orientador: Euripedes Constantino Miguel Filho. Descritores: 1.Sequenciamento de nucleotídeos em larga escala 2.Exoma 3.Análise

mutacional de DNA 4.Transtorno obsessivo-compulsivo/genética

USP/FM/DBD-167/13

Dedico este trabalho a Maria Thereza Cappi, minha amada mãe,

um exemplo de mulher na concretização de um sonho profissional.

AGRADECIMENTOS

Agradeço ao Euripedes Constantino Miguel, meu orientador, que sempre

confiou neste trabalho e me deu as melhores possibilidades de realizá-lo.

Foi duro muitas vezes em suas colocações, mas isto ajudou no processo de

amadurecimento científico e pessoal.

A Helena Brentani, que me apresentou o mundo apaixonante das

genômicas, por tantas conversas, discussões e crescimento.

À amiga Ana G. Hounie, que esteve sempre presente fazendo revisões,

principalmente no trabalho árduo de revisão final da tese. Muito Obrigada!

À amiga Juliana B. Diniz, que me acompanhou na elaboração do projeto,

revisão da qualificação e artigo final da tese.

A Roseli Gedanke Shavitt, coordenadora do PROTOC, pela confiança e

apoio, e pela deliciosa tarde de trabalho no artigo.

À amiga Priscila Chacon, que me apresentou à equipe do PROTOC.

Aos amigos queridos Cecília Toledo, Daniel Costa, Marcelo Batistuzzo e

Marcelo Hoexter, por tantas conversas sobre este trabalho e pela amizade.

Aos queridos do PROTOC: Alice De Mathis, Sonia Borcato, Marinês

Joaquim, Antônio Carlos Lopes, Nil Morais, Aline Sampaio, Debora, Vivi

Neri, Daniel Mariani e Tiaya Lourenço. Direta ou indiretamente, há um pouco

de todos neste trabalho.

A meu pai, meus dois irmãos e às amigas do peito Maria, Marti, Mari, Giber,

Marina e Carol Rosa, pelo apoio e amor durante todo este período.

A Idalina Shimoda, Carolina Dangelino, Juliana Juk e Elke, que facilitaram a

parte burocrática de todo este percurso.

A Eliza, Isabel e Luciana, da Pós-Graduação do Instituto de Psiquiatria, pela

orientação com as obrigações burocráticas.

Ao Prof. Dr. Mathew W. State, que sugeriu este trabalho; ao Tom

Fernandez, pela orientação do estágio na Yale, ao Professor Ivan Araújo

pelos ensinamentos de modelo matemático e ao Prof. Dr. David Pauls, pela

leitura detalhada do artigo, pelo entusiasmo com o trabalho e pelos

ensinamentos - um verdadeiro mestre.

A Iolanda Moura da LETRAGUIA pela belíssima revisão de português.

Ao Instituto de Psiquiatria da FMUSP, por oferecer toda a estrutura para

realização do meu trabalho.

Aos pacientes e familiares, que gentilmente cederam o material genético e

dados de sua vida para este trabalho.

Ao Instituo Nacional de Ciência e Tecnologia de Psiquiatria do

Desenvolvimento para Infância e Adolescência (INPD), financiado pelo

CNPq e pela FAPESP, pelo apoio a este trabalho.

Por fim, à Fundação de Amparo à Pesquisa do Estado de São Paulo

(FAPESP), pelo financiamento de parte desta tese e do meu estágio na

Universidade da YALE (processo número: 2008/11537-7).

NORMALIZAÇÃO ADOTADA

Esta tese está de acordo com as seguintes normas, em vigor no momento

desta publicação: Referências: adaptado de International Committee of

Medical Journals Editors (Vancouver).

Universidade de São Paulo. Faculdade de Medicina. Serviço de Biblioteca e

Documentação. Guia de apresentação de dissertações, teses e

monografias. Elaborado por Anneliese Carneiro da Cunha, Maria Julia de A.

L. Freddi, Maria F. Crestana, Marinalva de Souza Aragão, Suely Campos

Cardoso, Valéria Vilhena. 2ª ed. São Paulo: Serviço de Biblioteca e

Documentação; 2005.

Abreviaturas dos títulos dos periódicos de acordo com List of Journals

Indexed in Index Medicus.

SUMÁRIO

LISTA DE ABREVIATURAS

GLOSSÁRIO

LISTA DE TABELAS

LISTA DE FIGURAS

1. INTRODUÇÃO 1

1.1.Objetivos 6

1.2. Hipóteses 6

2. REVISÃO DA LITERATURA 8

2.1. Transtorno Obsessivo-Compulsivo 8

2.2. Genética do Transtorno Obsessivo-Compulsivo 9

2.3. Estudos de genética molecular 11

2.4. Estudo de associação do genoma inteiro (GWAS) 16

2.5. Variações raras 19

2.6. Estudos de exon do genoma inteiro, para a busca de variações de novo 25

3. MATERIAL E MÉTODOS 28

3.1. Aspectos Éticos 28

3.2. Amostra 29

3.3. Instrumentos de Avaliação 30

3.4. Grupo de familiares 31

3.5. Avaliação laboratorial e Bioinformática 31

3.6. Sequenciamento de exons do genoma inteiro 32

3.7. Redes de interação proteína-proteína (IPP) das variações de novo (DNM) 41

3.8. Priorização dos genes com variações de novo (DNM) relacionados a genes candidatos de TOC 46

3.9. Processos biológicos dos genes com variações raras hereditárias e variações novas hereditárias 47

4. RESULTADOS 48

4.1. Característica da amostra 48

4.2. Resultados do Sequenciamento 51

4.3. Identificação das Variações de novo (DNM) 52

4.4. Redes de interação proteína-proteína (IPP) das variações de novo (DNM) 55

4.5. Programa DADA – priorização de genes candidatos 59

4.6. Análise de processos e vias biológicas 62

4.7. Processos biológicos de genes da rede IPP das variações de novo não sinônimas 62

4.8. Porcessos biológicos das variações raras herdadas e variações novas herdadas 63

5. DISCUSSÃO 66

5.1. Caraterísticas clínicas dos probandos e variações de novo 67

5.2. rede de Interação proteína-proteína 68

5.3. Processos biológicos 77

5.4. Limitações 79

6. CONCLUSÃO 80

7. REFERÊNCIAS BIBLIOGRÁFICAS 81

ANEXOS

Anexo A: Sumário das variações codificantes encontradas em probandos com Transtorno Obsessivo-Compulsivo, a partir do sequenciamento em larga escala de última geração

Anexo B: Rede de interação proteína-proteína (IPP) de proteínas (genes) com mutações de novo (DNM) codificantes.

Anexo C: Lista de genes (proteínas) como variações de novo (DNM) codificantes ordenados pelo algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (DADA)

Anexo D: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com variações de novo (DNM) codificantes

Anexo E: Ciclo do aminoácido gama Glutamil

LISTA DE ABREVIATURAS

APA: Apostila de Primeiro Atendimento

BECK-A: Inventário de Ansiedade de Beck

BECK-D: Inventário de Depressão de Beck

C-TOC: Consórcio Brasileiro de Pesquisa sobre o Transtorno Obsessivo-Compulsivo

DSM-IV: Manual Diagnóstico e Estatístico da Associação Psiquiátrica da América

DY-BOCS: Escala Dimensional da Yale Brown

FMUSP: Faculdade de Medicina da Universidade de São Paulo

IPq: Instituto de Psiquiatria

K-SADS: Kiddie-Schizophenia and Affective Disorders

OCD: Obsessivo-Compulsivo disorder

PROTOC: Programa Transtornos do Espectro Obsessivo-Compulsivo do INPD: Instituto de Psiquiatria do Hospital da Clínicas da Faculdade de Medicina da Universidade de São Paulo.Instituto Nacional de Ciências e Tecnologia de Psiquiatria do Desenvolvimento para Crianças e Adolescentes

DSM-IV: Manual diagnóstico e estatístico de transtornos mentais

SCID: Entrevista Clínica Estruturada para o DSM-IV - Transtornos do Eixo I

ST: Síndrome de Tourette

TAG: Transtorno de Ansiedade Generalizada

TDAH: Transtorno de Déficit de Atenção e Hiperatividade

TEPT: Transtorno de Estresse Pós-Traumático

TOC: Transtorno Obsessivo-Compulsivo

Y-BOCS: Escala Yale Brown de Sintomas Obsessivo-Compulsivos

YGTSS: Escala de Avaliação Global de Tiques desenvolvida pelo Yale Child Study Center

GLOSSÁRIO

DNM: mutação ou variação de novo, isto é, esporádica.

SNVs: variações de uma troca de base (nucleotídeo); termo usado para variações de uma troca de base observadas a partir do sequenciamento de larga escala.

MAF: frequência do menor alelo.

Variações raras: consideradas variações com uma ocorrência menor ou igual a 1%; neste estudo, definimos como raras aquelas variações com frequência de ocorrência menor ou igual a 0,5%.

Variações comuns: variações com frequência de ocorrência entre 1% e 5% ou maior.

IPP: rede de interação proteína-proteína.

DADA: algoritmo de priorização de genes.

Códon: uma unidade formada por uma sequência de três nucleotídeos. Cada códon codifica um aminoácido. O códon muitas vezes é denominado código genético, que é o conjunto de regras pelo qual a informação dentro do material genético (DNA ou RNA mensageiro) é traduzida em um proteína (uma sequência de aminoácidos).

Variação não sinônina: variação/mutação que ocorre em regiões codificantes do genoma humano e que afeta a produção da proteína; as variações não sinônimas podem ser missense, que diminuem a atividade da proteína, ou nonsense (sem sentido), que fazem com que o códon não seja traduzido (stop codon).

Variação Missense: mutação pontual no DNA, a qual um nucleotídeo é trocado. O resultado é um códon que codifica um aminoácido diferente do normal. Uma das maiores consequências desta variação é que um aminoácido é substituído por outro. Usamos aqui o termo missense para reportar uma variação que altera a função da proteína.

Variação Sem sentido (nonsense): mutação pontual na sequência de DNA que resulta em um prematuro códon de finalização. Desta forma, finaliza a tradução do RNA mensageiro para a formação da proteína. O produto é uma proteína não funcional.

GWAS: estudo de associação do genoma inteiro.

Medida de herdabilidade: é a medida de quanto a variância do fenótipo é explicada pela variância genética.

CNV: variação no número de cópias.

SNP: polimorfismo de base única, geralmente usado para representar uma variação comum.

Exoma: conjunto de exons do genoma humano.

Probando: caso índice.

CVCD: comum variação - doença comum (common variaiton - common disease) hipótese que pressupõe que as doenças comuns são associadas com variações comuns.

RVCD: variação rara – doença comum (rare variation – common disease) hipótese que pressupõe que as doenças comuns são associadas com variações raras.

Doença comum: doenças poligênicas e multifatoriais (complexas).

aCGH: técnica de genômica comparativa baseada em chips de DNA, utilizada nos estudos de CNVs.

Interatoma: banco de dados que apresentam a interação física entre as proteínas.

nós: proteínas.

Linhas da rede: interação entre as proteínas; cada linha representa uma interação.

Hubs: proteínas com muitas linhas, isto é, com muitos nós adjacentes a ela.

Brokers: nós com muitos nós adjacentes, que não seriam conectados à rede se o broker não existisse.

Bridges: nós que conectam módulos de nós bem conectados na rede.

LISTA DE TABELAS

Tabela 1: Genes avaliados em estudos de associação com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 15

Tabela 2: Agrupamento dos transtornos psiquiátricos segundo definições mais abrangentes ........................................................................................................... 49

Tabela 3: Características demográficas e clínicas dos probandos com transtorno obsessivo-compulsivo (TOC) ................................................................................. 50

Tabela 4: Resumo dos dados de sequenciamento dos exons dos 17 trios com TOC (n=51 amostras) ..................................................................................................... 51

Tabela 5: Sumário das variações de novo (DNM) encontradas em probandos com transtorno obsessivo-compulsivo (TOC), a partir do sequenciamento em larga escala de última geração, e validadas pelo método sequenciamento Sanger ........ 54

Tabela 6: Lista de nove genes (proteínas) com mutações de novo (DNM), ordenados pelo algoritmo de grau informativo para redes com base na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA ...................................................................... 60

Tabela 7: Análise dos processos biológicos dos 129 genes que integram a rede de interação proteína-proteína IPP), mutações de novo .............................................. 63

Tabela 8: Análise dos processos biológicos dos 27 genes com variações raras (frequência de ocorrência 0,5%) em probando com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 64

Tabela 9: Análise dos processos biológicos dos 470 genes com variações de troca de um nucleotídeo (SNVs) novas, em probandos com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 64

LISTA DE FIGURAS

Figura 1: Etapas do sequenciamento, utilizando a tecnologia de sequenciamento de alta performance (high-performance sequencing - HiSeq) da empresa Illumina. ............................................................................................................................... 37

Figura 2: Exemplo de planilha de análise métrica da rede (interação proteína-proteína) ................................................................................................................. 56

Figura 3: Representação das melhores proteínas corretoras (brokers) e proteínas ponte (bridges), considerando-se um percentil de 95% da distribuição dos dados . 57

Figura 4: Rede de interação proteína-proteína (IPP) ............................................. 58

Figura 5: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com lista de proteínas com mutações de novo (DNM) não sinônimas. ....................................................................................................... 61

RESUMO

Cappi, C. Variações raras no genoma de pacientes com transtorno

obsessivo-compulsivo [tese]. São Paulo: Faculdade de Medicina,

Universidade de São Paulo: 2013.

Estudos de variações genéticas raras têm caracterizado com sucesso regiões do genoma e processos biológicos envolvidos no risco de desenvolver transtornos psiquiátricos. Dentro deste contexto, o sequenciamento de nucleotídeos em larga escala de exons do genoma inteiro para a observação de variações raras, conhecidas em inglês como single-nucleotide variation (SNV), e mutações espontâneas (“de novo” – DNM) tornou-se uma abordagem essencial na descoberta de novos genes de risco para transtornos psiquiátricos. Até o presente momento, nenhum estudo de SNV e variações de novo com sequenciamento de todas as regiões codificantes foi relatado no transtorno obsessivo-compulsivo (TOC). No presente estudo, este sequenciamento foi feito em 20 casos esporádicos de TOC e seus pais, para investigar a presença de variações raras de novo e herdadas nos probandos. A partir da observação de que os produtos de genes (proteínas) associados a uma mesma doença interagem em uma rede de interação proteína-proteína (IPP), foi feita uma rede de IPP com os genes (proteína) que apresentaram variações de novo não sinônimas, para observar dentre estes genes o de maior importância na rede de IPP. A fim de investigar a relevância desta rede, foi aplicado um algoritmo de grau informativo para redes, baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) que ordenou os genes com variações de novo não sinônimas, embasado na associação destes com uma lista de genes envolvidos em conferir risco para TOC provenientes de uma meta-análise de genética em TOC. Além disso, foi feita uma análise de processos biológicos envolvidos com os genes que apresentavam variações raras herdadas. No total, 10 variações de novo não sinônimas (9 missense e 1 nonsense) foram validadas utilizando-se o sequenciamento Sanger. Os genes WWP1, AP1G1 e CR1, advindos da lista inicial de genes com variações não sinônimas, foram altamente conectados na rede de IPP. O gene WWP1 foi o gene com maior pontuação no ranking de resultados do algoritmo DADA. Os resultados de processos biológicos envolvendo estes genes sugerem o envolvimento do sistema imunológico em TOC. Além disso, todos os genes com variações de novo não sinônimas, exceto um, são genes com expressão no cérebro e envolvidos com sinaptogênese e morte neuronal.

Descritores: 1.Sequenciamento de nucleotídeos em larga escala 2.Exoma 3. 4.Transtorno obsessivo-compulsivo/genética

SUMMARY

Cappi, C. Rare variants in obsessive-compulsive disorder [thesis]. São

Paulo: Faculdade de Medicina, Universidade de São Paulo: 2013.

Studies of rare variations have been used successfully to characterize regions of the genome and molecular pathways conferring risk for developmental neuropsychiatric disorders. Within this context, whole-exome sequencing for rare single-nucleotide variation (SNV) and de novo mutation (DNM) mutation has become an essential approach for gene discovery in psychiatric disease. To date, few if any studies of SNVs and de novo variation using this technology have been reported for obsessive-compulsive disorder (OCD). In the present study, all coding regions of the genome were sequenced for 20 sporadic probands with OCD and their parents, to investigate de novo and inherited rare variations in probands. Subsequently, based on the observation that the products of genes associated with similar diseases are likely to interact with each other heavily in a network of protein-protein interactions (PPIs), a PPI network was generated, with the genes (protein) with non-synonymous de novo variation, to observe the most important genes in the network. To investigate the relevance of this network to OCD further, degree-aware disease gene prioritization (DADA) was applied, to rank all genes with non-synonymous de novo variation based on their relatedness to a set of genes previously identified in an OCD genetics meta-analysis. In addition, pathway analyses using de novo and inherited variation were completed. Altogether, 10 non-synonymous de novo variations (9 missense, 1 nonsense) were successfully validated by Sanger sequencing. We found that the genes WWP1, AP1G1 and CR1, from the initial non-synonymous de novo variation gene list, were highly interconnected in the PPI. The WWP1 gene had the highest rank in the DADA analyses. Results of the pathway analyses suggest the enrichment of genes involved in immunological systems. In short, almost all genes involved in the DNMs of the present study are expressed in the human brain and implicated in synaptogenesis and neuronal apoptosis.

Descriptors: 1. High-throughput nucleotide sequencing 2. Exome 3. DNA mutacional analysis 4. Obsessive-compulsive disorder/genetics.

1

1. INTRODUÇÃO

Este estudo faz parte da linha de pesquisa do Programa Transtornos

do Espectro Obsessivo-Compulsivo do Instituto de Psiquiatria do Hospital

das Clínicas da Faculdade de Medicina da Universidade de São Paulo

(PROTOC) e do Instituo Nacional de Ciências e Tecnologia de Psiquiatria do

Desenvolvimento para Crianças e Adolescentes (INPD). Em paralelo às

abordagens fenotípicas e de avaliação de tratamento das pesquisas

desenvolvidas no PROTOC e no INPD, também são realizados estudos que

investigam bases biológicas associadas ao risco de desenvolver o transtorno

obsessivo-compulsivo (TOC).

A teoria predominante dos estudos que buscavam as bases genéticas

dos transtornos mentais das últimas décadas se baseou na hipótese de que

apenas as variações comuns estivessem relacionada com a origem destas

afecções (State e Levitt, 2012). Variações comuns são aqueles alelos que

ocorrem com uma frequência maior que 5% na população geral. As

variações comuns mais estudadas são os polimorfismos de base única

(SNP). Diversas destas variações em conjunto, cada uma com um pequeno

efeito, estariam relacionadas com o fenótipo (doenças comuns,

consideradas complexas, em que muitas variantes genéticas com um

pequeno efeito estariam associadas ao risco de desenvolver tais doenças,

conjuntamente, quando em interação com o ambiente) [Sebat, 2007]. Este é

o fundamento dos estudos de genes candidatos e dos estudos de

2

associação do genoma inteiro (GWAS) realizados com um grande número

de pacientes, familiares e controles com transtornos mentais. Porém, os

primeiros GWAS falharam em conseguir detectar entre milhares de alelos

aqueles possivelmente relacionados ao risco de desenvolver a doença (Zuk

et al., 2012). Os resultados mostraram que as variações comuns têm um

pequeno efeito sobre o risco de desenvolver. Críticas a esse tipo de estudo

estão relacionadas com o desenho do estudo (caso e controle), que pode

levar a estratificação populacional e com o tamanho da amostra necessário

para se observar o efeito destas variáveis e com o tipo de testagem a ser

utilizada quando se trabalha com este tipo de abordagem (Manolio et al.,

2009).

Além dos fatores envolvidos com o método de observar as variações

comuns do genoma, uma série de artigos discute outras possíveis causas

para a falta de achados nesta área relacionadas com o erro na hipótese de

hereditariedade das doenças complexas (missing heritability) [Sebat, 2007).

Entre os principais fatores que acredita-se estarem implicados com esta

baixa estimativa de herdabilidade, destacam-se aqueles relacionados com

as interações gene-gene e gene-ambiente que não são levadas em conta no

cálculo da hereditariedade (Zuk, et al., 2012). Além disso, a falta de

conhecimento do impacto de todas as variáveis genômicas, incluindo-se as

variações raras que não são contempladas em seu todo com os métodos de

estudos de variações comuns e cálculo da herdabilidade, também pode

explicar estes achados iniciais negativos.

3

O estudo da contribuição das variações raras (aquelas com ocorrência

de até 5%) ou muito raras (com uma ocorrência menor que 0,5%) para as

doenças complexas cresceu muito depois dos primeiros resultados dos

GWAS (State, 2010).

Estas variações raras podem ser estruturais e são conhecidas como

variações no número de cópias (CNVs) [Malhorta e Sebat, 2012]. Apesar de

muitos autores incluírem em CNVs vários tipos de variações estruturais - tais

como translocações, inversões, deleções e duplicações -, na psiquiatria o

termo CNV se refere apenas a deleções e duplicações maiores do que 1kb

(Iafrate et al., 2004). Acredita-se que 12% a 15% do genoma é constituído

de CNVs (Redon, et al., 2006). Apesar da baixa ocorrência absoluta, uma

única CNV pode afetar vários genes, tornando-se muitas vezes mais

deletéria do que os SNPs, que ocorrem com maior frequência (Alkan et al.,

2011).

Os estudos em psiquiatria feitos com autismo (Sebat et al., 2007),

esquizofrenia (Consortium, 2008), transtorno bipolar (Malhotra et al., 2011),

transtorno de déficit de atenção e hiperatividade (Williams et al., 2010) e

TOC (McGrath, In Press) mostram que as CNVs estão implicadas no risco

de desenvolver estes transtornos em diferentes graus, seja pelo aumento na

frequência de CNVs raras e maiores que 500kb quando comparadas com os

controles, seja pela maior taxa de ocorrência de CNVs de novo comparadas

com controles. A mesma CNV ou regiões com maior frequência de CNVs

são semelhantes em diferentes transtornos, de modo que já foi sugerido na

literatura que esses transtornos não são de fato diferentes entre si ou que

4

estejamos observando um espectro da mesma condição (Malhotra e Sebat,

2012). Essas CNVs estão associadas com genes relacionados ao

neurodesenvolvimento (Merikangas et al., 2009).

Mais recentemente, com o avanço das técnicas genômicas - incluindo-

se o sequenciamento de última geração - tornou-se possível investigar os

alelos de baixa frequência no genoma inteiro, aumentando-se a detecção de

variações genômicas de risco para os transtornos mentais. São mais

estudadas com esta técnica as variações raras de troca de um par de bases.

Estas variações são denominadas em inglês single nucleotide variation

(SNVs). Os principais estudos feitos com estas variações são os de todas as

regiões codificadoras do genoma, denominadas exoma. Apesar de o exoma

ser apenas 1% de todo o genoma, é nesta região que se encontram 85% de

todas as variações consideradas de grande efeito de risco para as doenças

comuns. Além disso, as variações no exoma são consideradas mais

deletérias do que em outros pontos do genoma humano (Goldstein, 2009).

Os principais trabalhos que usam a técnica de sequenciamento de

exons do genoma inteiro em psiquiatria são feitos em trios (pai, mãe e filho

afetado) e em casos esporádicos (não familiais) para observar variações de

novo (novas, não observadas nos pais). Os principais achados se referem à

frequência de ocorrência dessas variações, maiores em pacientes quando

comparados com controles, principalmente quando se observam as

variações consideradas não sinônimas, isto é, que alteram a produção de

proteína, ou levam a sua não produção, variações estas denominadas sem

sentido, do inglês nonsense (Fu et al., 2013). Os genes que apresentam

5

estas variações que afetam a proteína e que são encontrados em probandos

geralmente ocorrem expressos no cérebro e estão envolvidos com

sinaptogênese (Sanders et al., 2012). Uma série destas variações está

envolvida com doenças sindrômicas, o que aproxima os transtornos mentais

das doenças consideradas mendelianas (Kryukov et al., 2007).

Assim, nesta tese procuramos investigar variações genômicas

observadas com técnicas de sequenciamento em larga escala que, segundo

nosso conhecimento, ainda não foram estudadas. Este trabalho faz parte da

linha de estudo das variações genéticas no TOC, sendo elas raras ou

comuns, estruturais ou de uma troca de base. Apresentaremos a seguir os

resultados da análise de sequenciamento do exoma do genoma inteiro em

trios de pacientes com TOC para observar variações de novo não sinônimas

e variações raras novas (que não se encontram no banco de dados do

National Center for Biotechnology Information (NCBI) herdadas. Além da

observação inicial dos genes com estas variações, realizamos uma análise

de redes, baseados na hipótese de que genes (proteínas) associados com a

mesma doença se encontram próximas em um rede de interação proteína –

proteína. Consideramos a interação proteína-proteína e criamos uma rede

com o produto dos genes (proteína) que tiveram em sua sequência SNVs de

novo e não sinônimas. Ademais, fizemos uma análise de processos

biológicos para verificar se os genes com variações de novo estão

envolvidos com com sinaptogênese, apoptose celular e processos

envolvidos com o sistema glutamatérgico, já descritos em pacientes com

TOC.

6

1.1. Objetivos

O objetivo geral deste trabalho é procurar variações de novo não

sinônimas em probandos com TOC e verificar quais são os genes em que

há ocorrência destas variações. Após esta etapa, usaremos uma abordagem

de interação proteína-proteína para criar uma rede e observar a importância

destes genes na rede. Por meio da observação de uma meta-análise

genética de TOC publicada recentemente por Taylor (2012), será observado

se estes genes são associados com genes candidatos para TOC.

Faremos também um estudo funcional destes genes para verificar em

quais processos biológicos eles estão envolvidos. Além disso, iremos

observar se estas variações são consideradas deletérias.

O objetivo específico é: verificar quais são os processos biológicos

envolvidos com genes que apresentam variações raras presentes em

bancos de dados de sequenciamento de exon e variações novas, isto é, que

não foram descritas na base de dados do NCBI.

1.2. Hipóteses

1. Esperamos encontrar a ocorrência de variações de novo não sinônimas

em probandos com TOC e que a taxa de ocorrência destas variações de

7

novo não sinônimas seja maior do que a taxa encontrada em uma população

sem transtorno psiquiátrico.

2. Esperamos encontrar que as variações de novo não sinônimas estejam

presentes em genes relacionados a processos biológicos envolvidos com o

risco de desenvolver TOC e para isto estudaremos estes genes dentro de

uma rede de interação proteína - proteína utilizando banco de dados do

interatoma.

3. Esperamos encontrar uma associação destes genes com variações de

novo com genes candidatos para TOC observados por meio dos resultados

de uma meta-análise de genética em TOC.

4. Esperamos encontrar que as variações novas raras herdadas estejam em

genes que fazem parte de processos biológicos envolvidos com o risco de

desenvolver TOC.

8

2. REVISÃO DA LITERATURA

2.1. Transtorno Obsessivo-Compulsivo

O TOC é caracterizado pela presença de obsessões e/ou compulsões,

que geram grande sofrimento devido, principalmente, ao tempo consumido

e/ou à interferência nas rotinas diárias (Insel, 1985). As obsessões são

ideias, pensamentos ou imagens recorrentes e intrusivos, vividos como

incontroláveis e associados a sentimentos incômodos e/ou ansiedade. As

compulsões são comportamentos repetitivos e estereotipados que o

indivíduo se sente impelido a executar e que resultam em redução

momentânea do incômodo ou da ansiedade (Leckman et al., 1997).

Na população em geral, o TOC tem uma prevalência estimada de 2,0 a

2,5% ao longo da vida (Ruscio, Stein et al., 2010). Segundo estudos

transculturais, o TOC apresenta uma prevalência similar em diferentes

partes do mundo, e seus sintomas são semelhantes em diversas populações

e culturas (Matsunaga e Seedat, 2007).

Cerca de metade dos adultos acometidos pelo TOC manifesta os

primeiros sintomas durante a infância e/ou adolescência, e até 80% destes

indivíduos apresentam sintomas antes dos 18 anos (Rasmussen e Eisen,

1990; De Mathis et al., 2008).

9

2.2. Genética do Transtorno Obsessivo-Compulsivo

Estudos de gêmeos e de agregação familiar

Apesar de o conceito do TOC ter surgido a partir de uma teoria

eminentemente psicológica, o envolvimento de fatores genéticos na etiologia

do TOC vem sendo enfatizado desde as primeiras descrições do quadro

(Inouye, 1965; Pauls, 1992).

Vários estudos de famílias evidenciaram que ter um familiar afetado

pelo TOC aumenta a probabilidade de desenvolvimento do transtorno

(Lenane et al., 1990; Black et al., 1992; Pauls et al., 1995; Nestadt et al.,

2000; Do Rosario-Campos et al., 2005). Inclusive, a manifestação dos

sintomas de TOC com início antes dos 10 anos de idade e a comorbidade

com transtorno de tiques aumentam significativamente a probabilidade de

agregação familiar (mais de um indivíduo afetado na mesma família) no TOC

(Nestadtet al., 2000; Gonzales, 2003; Do Rosario-Campos et al., 2005;

Hanna et al., 2005). No entanto, a agregação familiar do TOC não é

explicada exclusivamente por fatores genéticos, e alguns estudos relataram

maior agregação familiar em parentes de indivíduos com TOC não tratado

quando comparados com aqueles em tratamento, o que vem reforçar o

impacto de fatores ambientais na gênese do transtorno (Grabe et al., 2006).

Por outro lado, outros achados reforçam a hipótese de herdabilidade

genética para o TOC. Estudos de gêmeos, por exemplo, demonstram que

enquanto em gêmeos monozigóticos a concordância para o diagnóstico de

TOC é em torno de 70% a 80%, em gêmeos dizigóticos essa concordância é

10

de apenas 22% a 47% (Inouye, 1965; Gottesman, 1997), o que corresponde

a uma estimativa de herdabilidade genética em torno de 26% a 33%

(Andrews et al., 1990; Jonnal et al., 2000). Outros autores mostraram que a

herdabilidade associada à idade de início precoce do TOC é maior do que à

associada à idade de início na fase adulta, respectivamente, h2=45-65% e

h2=27-47% (Van Grootheest et al., 2005).

Um estudo recente estimou a herdabilidade do TOC utilizando dados

de genoma inteiro para variações comuns e um programa de análises de

dados complexos do inglês Genome-wide Complex Trait Analysis (GCTA)

para medir a herdabilidade. A herdabilidade estimada para o TOC foi de 0.37

(SE = 0.07, p=1.5e-07). No mesmo estudo, foram conduzidas outras

análises de herdabilidade levando-se em conta a organização genômica das

variações comuns, tais como posição no cromossomo, frequência do menor

alelo (MAF), anotações funcionais das variações e início dos sintomas de

TOC, e foi observada maior herdabilidade nas variações relacionadas com a

expressão de genes das regiões do córtex parietal e regiões cerebelares.

Outro achado interessante foi a correlação genética entre TOC e síndrome

de Tourette (ST) [0.41 (se = 0.15, p=0.002)] (Davis, In Press).

Na mesma direção, estudos de análise de segregação de TOC em

famílias demonstraram que a transmissão do transtorno segue um modelo

genético (Alsobrook et al., 1999; Cavallini et al., 2000; Nestadt et al., 2000;

Hanna et al., 2005).

11

2.3. Estudos de genética molecular

Os estudos de genética molecular no TOC, que buscam identificar

regiões do genoma e genes candidatos associados com o risco de

desenvolver o transtorno, começaram a ser realizados a partir das primeiras

evidências mostradas pelos estudos genético-epidemiológicos sobre a

participação do componente genético na etiologia do TOC. Serão

apresentados abaixo os principais estudos, tanto de ligação (linkage), que

apontam regiões cromossômicas candidatas para o risco de TOC, como

estudos de genes candidatos e de associação de genoma inteiro, na sua

grande maioria, associados com variações comuns.

Um dos primeiros estudos de ligação de varredura de genoma,

realizado com pacientes com idade de início precoce do TOC, identificou

uma região candidata relacionada ao marcador D9S288, do cromossomo

9p24, que preencheu critérios para significância sugestiva de ligação [LOD

(logarithm of the odds ratio) =1,97] (Hanna et al., 2002). Esse achado foi

reproduzido por dois estudos que usaram critérios amplos para a definição

de TOC e observaram forte evidência de ligação no cromossomo 3q27-28

(Willour, Yao Shugart et al., 2004; Shugart, Samuels et al., 2006). Além

desses, picos nos cromossomos 10p (Hanna et al., 2007a; Liang et al.,

2008), 15q (Shugart et al., 2006; Ross et al., 2011) e 19q (Hanna et al.,

2002) também foram reportados.

Samuels et al. (2007) avaliaram 219 famílias de múltiplos afetados com

colecionamento como principal sintoma do TOC. Encontraram que, em

12

famílias com dois ou mais familiares com colecionamento, havia uma

significativa ligação do TOC com o cromossomo 14, mais especificamente

com o marcador C14S1937. Em famílias com menos de dois familiares com

colecionamento ocorreu uma ligação sugestiva no cromossomo 3 (marcador

D3S2398).

Um estudo recente de ligação com 33 famílias caucasianas, com duas

ou mais crianças afetadas por família, foi conduzido e apontou a região do

cromossomo 1p36 como uma candidata a ter relação com o risco de

ocorrência (Mathews et al., 2012).

A maior parte dos estudos genéticos de associação baseia-se em

análises de variações genômicas conhecidas como polimorfismos de base

única (SNPs) (lê-se “snip”, do inglês, single nucleotide polymorphisms) de

genes candidatos. Estes estudos podem ser do tipo caso-controle ou com

trios (probando e pais). A principal limitação da análise de associação caso-

controle pode acontecer pela estratificação populacional, ou seja, quando os

casos não estão etnicamente emparelhados com os controles. Os estudos

baseados em famílias, com trios, controlam o viés da estratificação

populacional, já que o que se avalia são os alelos que foram transmitidos

para os afetados, em comparação com os alelos não transmitidos. Além

disso, estes estudos são feitos em sua maioria, como já citado, com

variações comuns no genoma. Variações comuns são consideradas aquelas

variações genômicas (SNPs) em que o alelo (nucleotídeo) ocorre com uma

frequência entre 1% a 5% na população geral. Esta frequência é conhecida

13

como a de menor alelo para o loci em questão, do inglês minor allele

frequency (MAF).

Mais de 80 genes candidatos foram estudados em TOC. Entre estes

estão genes que, em geral, codificam neurotransmissores envolvidos nos

circuitos cerebrais que fazem parte dos mecanismos fisiopatológicos do

TOC (Tabela 1). Os principais genes estudados são os envolvidos nas vias

serotonérgicas, dopaminérgicas e glutamatérgicas (Pauls, 2008; 2010;

Pittenger et al., 2011; Wu et al., 2012), além daqueles envolvidos com

sistema imunológicos (Hounie et al., 2008; Cappi et al., 2012) e substância

branca (Stewart et al., 2007b). O gene SLC1A1, que codifica o transportador

de glutamato e que está dentro da região de ligação do cromossomo 9p, é o

único gene candidato que foi replicado em amostras de TOC independentes.

Porém, as variações dentro deste gene consideradas associadas com o

risco de desenvolver TOC diferem de estudo para estudo (Arnold et al.,

2006; Dickel et al., 2006; Stewart et al., 2007; Wendland et al., 2009). A

recente meta-análise com este gene que observa 9 SNPs dentro do gene

apresenta resultado positivo apenas para dois SNPs (rs301443 e

rs12682807), quando a amostra foi dividida por sexo (associação apenas

para o sexo masculino). Os autores discutem a importância do tamanho

amostral para melhor compreensão do envolvimento do gene para o risco de

desenvolver TOC (Stewart et al., 2013).

Alguns estudos foram feitos com outros genes que participam do

sistema glutamatérgico; entre estes, um achado interessante ocorreu com

modelo animal com a deleção do gene SAPAP3. Os animais com esta

14

deleção apresentavam aumento do comportamento de grooming e

ansiedade-like (Welch et al., 2007). O gene SAPAP3 codifica uma proteína

pós-sináptica localizada nas sinapses excitatórias da região do cérebro

denominada estriado. Esta é uma região relacionada à fisiopatologia do TOC

(Haber e Heilbronner, 2013). Na tentativa de traduzir estes achados em

modelo animal para o ser humano, estudos sugeriram que o gene ortólogo

ao SAPAP3 em humanos, o gene DLGAP3, seja um possível candidato para

o TOC (Welch et al., 2007). Os autores (Züchner et al., 2009) identificaram

um aumento na frequência de uma variação rara não sinônima no gene

DLGAP3 associado ao risco para desenvolver TOC e tricotilomania.

(Bienvenu et al., 2009) também identificaram uma variação comum do gene

DLGAP3 relacionado ao comportamento de grooming em um estudo

baseado em família, apesar de outro estudo apresentar algumas

inconsistências (Boardman et al., 2011).

Um estudo que associa SNPs nos genes do sistema glutamatérgico e

volume cerebral (córtex orbito frontal, córtex do cíngulo anterior, tálamo,

caudado, putâmem, globo pálido e hipófise) foi conduzido com 20 pacientes

virgens de tratamentos (drug naive). Nenhum dos 519 SNPs foi associado

com mudança de volume cerebral nestes pacientes, depois de correção

estatística para múltiplas testagens. Foi encontrada apenas uma tendência à

associação do gene DLGAP2 (rs6558484 e rs7014992). Novamente, os

autores sugerem maior investigação do gene em uma amostra maior de

pacientes (Wu et al., 2013).

15

Recentemente, (Taylor, 2012) fez uma meta-análise com os genes

candidatos para TOC e achou que os genes HTTLPR e HTR2A estão

associados com o transtorno. Analisando a amostra por diferença de sexo,

ele reportou que os polimorfismos envolvidos na regulação de catecolaminas

(COMT e MAOA) estão associados com o risco de desenvolver TOC no

sexo masculino. No mesmo trabalho, em uma análise secundária, foi

reportado que 18 polimorfismos, de um total de 204 observados, foram

significativos para o risco de TOC.

Tabela 1: Genes avaliados em estudos de associação com transtorno obsessivo-compulsivo (TOC)

Sistemas envolvios Genes candidatos

Genes envolvidos no metabolismo de neurotransmissores

Gene da Catecol-O-metiltransfrase (COMT)

Gene da Monoamino-oxidade –A (MAO-A)

Genes ligados ao sistema serotonérgico

Gene do transportador da serotonina (SLC6A4, 5-HTT, SERT)

Gene do receptor da serotonina tipo 2A (5-HT2A);

Gene do receptor da serotonina tipo 1B (5HT1B)

Gene do receptor da serotonina tipo (5HT2C)

Genes das enzimas triptofano hidroxilase 1 e 2 (TPH1 e TPH2)

Genes relacionados ao sistema dopaminérgico Gene do transportador de dopamina (DAT1 ou SLC6A3)

Gene do receptor de dopamina D2 (DRD2)

Gene do receptor de dopamina D3(DRD3)

Gene do receptor de dopamina D4 (DRD4)

Genes relacionados ao sistema glutamatérgico

Gene do receptor ionotrópico do glutamato, N-metil- d-aspartato 2B (GRIN2B)

Gene do transportador de glutamato de alta afinidade neuronal/epitelial (SLC1A1)

Genes dos receptores ionotrópicos do glutamato, kainato 2 e 3 (GRIK2 e GRIK3)

Genes relacionados ao sistema opioide Gene do receptor opioide, mu 1 (OPRM1) (Urraca et al., 2004)

Genes relacionados ao sistema gabaérgico Gene do receptor do ácido gama-aminobutírico (GABBR1)(Zai et al., 2005)

http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene&cmd=Retrieve&dopt=full_report&list_uids=6505

16

Sistemas envolvios Genes candidatos

Genes relacionados ao desenvolvimento estrutural do sistema nervoso central

Gene do fator neurotrófico derivado de cérebro (BDNF)(Hall et al.,

2003)

Gene do fator de transcrição da linhagem oligodendrocítica 2 (OLIG2)

Gene da glicoproteína oligodendrocítica da mielina (MOG)(Zai et al., 2004; Atmaca et al., 2010)

Gene da adenosina deaminase, RNA-especifica, B2 (ADARB2)(Hanna et al., 2007b)

Série HOX (genes relacionados à morfogênese)(Nestadt et al.,

2012)

2.4. Estudo de associação do genoma inteiro (GWAS)

Na última década, o sequenciamento do genoma humano, o

mapeamento de milhares de SNPs (Hinds et al., 2005) e a conclusão do

projeto de desenvolvimento do mapa de haplótipos do genoma humano

(HapMap) (Consortium, 2005) (International HapMap Consortium, 2005)

trouxeram grande progresso para a compreensão da fisiologia do genoma

humano e seu impacto na etiologia de diversas doenças.

Como consequência dessas inovações tecnológicas e métodos

estatísticos para observar a distribuição destas variações do genoma,

surgiram os estudos genéticos de associação do genoma inteiro, conhecidos

no inglês como whole genome association study (WGAS), que avaliaram

milhares de pacientes e controles e centenas de milhares de SNPs,

buscando uma associação destes SNPs com o risco de desenvolver

doenças, entre elas, as doenças consideradas comuns, em que o modelo

poligênico de associação genética é o modelo mais próximo de explicação

do envolvimento do componente genético (Lander et al., 2001; Subramanian

17

et al., 2001; Sebat, 2007). Apesar de este modelo ser dito apropriado para

doenças consideradas poligênicas, diferentemente do que se esperava, os

resultados dos primeiros WGAS explicaram muito pouco o papel do

componente genético para estas doenças, incluindo-se os transtornos

mentais.

Para o TOC, o primeiro WGAS foi publicado no ano de 2012. De fato,

apesar de ser o maior estudo com TOC feito até agora, os resultados

mostraram que não ouve uma associação de todos os SNPs com probando

de TOC quando comparados com controles. Os menores valores de p

ocorreram em dois SNPs localizados dentro do gene DLGAP1, um gene do

complexo neuronal pós-sináptico (p=2.49x10-6 e p=3.44x10-6). Ainda assim,

estes valores de p não são considerados significativos em estudos de

GWAS. Na análise com os trios, o SNP rs6131295, próximo ao gene

BTBD3, excedeu o p valor de significância para estudos de WGAS, sendo o

seu p valor=3.84 x 10-8. Entretanto, quando se juntaram os dados de caso e

controles com trios, este SNP não continuou sendo significativo. Embora

quando foram examinados apenas os SNPs associados com o controle de

expressão do genes no cérebro e SNPs associados com sítios de metilação

foram observados sinais de associação de SNPs com esta função em

probandos com TOC, tanto no estudo caso e controle, como em trios,

sugerindo que estes SNPs possam estar associados com o risco de

desenvolver o transtorno (Stewart et al., 2012).

A ausência de resultados conclusivos a partir dos estudos de

associação com SNPs levou a novos questionamentos sobre a base

18

genética das doenças complexas, como os transtornos mentais, e as

estratégias utilizadas até o momento para identificar os loci de

suscetibilidade. Este questionamento é conhecido com a falta de

herdabilidade (missing heritability) para estas doenças. Um série de artigos

foi publicada em que se discutiu o tema da missing heritability, tentando-se

compreender o que poderia estar por trás desta falta de achados (Zuk et al.,

2012).

Se, por um lado, foi possível observar que nos estudos de associação

de SNPs comuns o tamanho de efeito das associações encontradas foi

modesto, por outro lado, os SNPs encontrados não foram necessariamente

funcionais (ou seja, não alteravam a função da proteína transcrita de genes

conhecidos (também chamados de mutação silenciosa), o que dificulta a

compreensão da base genética dos transtornos mentais (Sebat, 2007;

Manolio et al., 2009). Ademais, observou-se que uma porção substancial da

falta de hereditariedade pode estar associada com o envolvimento do meio

ambiente na etiologia destes transtornos que, além da interação gene-gene,

não é levado em conta no cálculo da hereditariedade (Zuk et al., 2012).

Ao longo do tempo, também ficou claro que, embora o HapMap

(Internation HapMap project http//:hapmap.ncbi.nlm.nih.gov) seja um

instrumento poderoso para catalogar as variações genéticas consideradas

comuns (frequência entre 1-5%) para estudos genéticos de associação, o

conjunto de SNPs usados como marcadores moleculares não cobre

totalmente a variabilidade do genoma (Goldstein, 2009). Compreender o

papel da hereditariedade genética nas doenças complexas requer uma

19

observação abrangente das variações genômicas, incluindo-se as variações

raras (Manolio et al., 2009; Eichler et al., 2010; Zuk et al., 2012).

2.5. Variações raras

Os estudos de variações raras na psiquiatria acompanham o

questionamento do modelo conceitual, que era vigente até então, para

explicar o envolvimento do componente genético nos transtornos mentais.

Este modelo é conhecido em inglês como common variant common disease

(CVCD), e por trás dele há a hipótese de que as variações genômicas

associadas com doenças complexas são as variações comuns (ocorrência

maior do que 5%).

A partir das observações do envolvimento de variações raras no

genoma surge um novo modelo conceitual, conhecido em inglês como rare

variant common disease (RVCD), que presume que as variações raras no

genoma é que estão associadas com as doenças complexas (State, 2010;

State e Levitt, 2011).

Os primeiros estudos de variações raras no genoma inteiro em

psiquiatria foram os de variações estruturais. Estas são conhecidas como

variações no número de cópias, do inglês copy number variation (CNVs), e

podem ser deleções e/ou duplicações de segmentos do genoma (Malhotra e

Sebat, 2012).

20

As primeiras descrições de perdas e ganhos no genoma humano

ocorreram na década de 80 (Beckmann et al., 2007). Porém, foi a partir do

desenvolvimento da técnica hibridação genômica comparativa, baseada em

chips de DNA (aCGH) (array-based Comparative Genomic Hybridization), na

década de 90, que aumentou a compreensão deste tipo de variação

estrutural do genoma (Lee e Scherer, 2010). Seu processo de formação é

geralmente associado com os mecanismos de rearranjos cromossômicos no

genoma; os principais são a recombinação homóloga não alélica (Non Allelic

Homologous Recombination – NAHR) e a junção de extremidades não

homólogas (Non-Homologous End Joining – NHEJ) (Malhotra e Sebat,

2012). Os principais trabalhos que estabeleceram que as CNVs fazem parte

da variabilidade genética normal do genoma humano foram publicados em

2004 (Iafrate et al., 2004; Sebat et al., 2004b). Em 2007, (Redon et al., 2006)

observaram que estas variações cobriam de 12% a 15% (mais ou menos

500 Mb) do genoma humano. As CNVs foram categorizadas inicialmente

como segmentos de um kilobase (Kb) a vários megabases (Mb) de

fragmentos de DNA e compreenderam grandes inserções ou deleções no

genoma. Todavia, com a mudança de precisão das técnicas de detecção de

CNVs foi possível observar CNVs menores, de modo que muitos estudos

passaram a incluir em suas análises sequências menores que 1kb (Sebat et

al., 2004a; Conrad et al., 2010). Apesar de a maioria das CNVs serem

individualmente mais raras na população quando comparadas com os SNPs

(variações também importantes para a variabilidade genética), em conjunto

elas são uma fração significativa das variações genômicas do genoma

humano (Alkan et al., 2011). As CNVs podem ser herdadas e de novo

21

(esporádicas); podem conter partes de genes, um ou mais genes e regiões

regulatórias no genoma, ou mesmo não conter qualquer elemento

conhecido. Consequentemente, sua ocorrência pode interromper regiões

funcionais do genoma e gerar novas combinações de sequências,

produzindo novas moléculas, o que está associado com a variabilidade

fenotípica, incluindo-se a ocorrência de doenças (Conrad et al., 2010; Lee e

Scherer, 2010). Dentro da psiquiatria, CNVs são sinônimos de variação rara,

apesar de se saber que as variações estruturais têm uma ampla distribuição

de tamanho, tipo e frequência do alelo que as alberga e que a maior parte

destas variações em um genoma individual está em alelos comuns

(Mccarroll et al., 2008; Conrad et al., 2010).

Entretanto, são as CNVs raras as mais estudadas. Uma série de

estudos foi feita com CNVs em psiquiatria, podendo ser estudos de famílias

para observar CNVs de novo que não foram herdadas pelos genitores ou

estudos caso-controle para observar a frequência de ocorrência destas

variações entre populações afetadas e não afetadas pelo diagnóstico em

questão. Os principais transtornos neuropsiquiátricos nos quais os CNVs

têm um importante papel no risco para o seu desenvolvimento são autismo

(Sebat et al., 2007; Marshall et al., 2008; Glessner et al., 2009; Pinto et al.,

2010; Gilman et al., 2011; Sanders et al., 2011) e esquizofrenia (Consortium,

2008; Stefansson et al., 2008; Walsh et al., 2008; Kirov et al., 2009; Sebat et

al., 2009; Xu et al., 2009; Malhotra et al., 2011). Nesses transtornos, as

CNVs, consideradas raras (frequência de ocorrência menor que 1% na

população), estão associadas com genes envolvidos em processos do

22

neurodesenvolvimento, tais como sinaptogênese, mobilidade neuronal e

axonal, processos de degradação proteica via sistema de ubiquitina-

proteossoma (sinalização por ubiquitina) e complexos proteicos de

sinalização pós-sináptico. Outro achado interessante é que regiões

cromossômicas de CNVs em probandos são loci conhecidos associados

com síndromes de micro-deleção, como, por exemplo, região cromossômica

16p11.2, síndrome de Williams lócus 7q11.23; síndrome de Prader-Willi

Angelman no loco 15q11-13 e síndrome VCFS Di George no loco 22q11.2

(Malhotra e Sebat, 2012). As CNVs de novo têm um importante papel para o

risco destes transtornos. A frequência de ocorrência é maior em probandos

do que em controles.

Em casos esporádicos (considerados famílias nas quais os genitores

até a segunda geração não têm o transtorno em questão) foi observada uma

frequência maior de CNV de novo no probando quando comparado com

irmão não afetado (Xu et al., 2009; Levy et al., 2011; Sanders et al., 2011).

Entretanto, em outros estudos não foi possível observar esta diferença entre

casos esporádicos e familiais com relação à frequência de CNVs de novo. O

que foi relatado foi apenas uma frequência maior destas variações em

probandos quando comparados com controles (Sebat et al., 2007; Kirov et

al., 2009; Malhotra et al., 2011). Apesar de as variações de novo serem

importantes para os transtornos psiquiátricos, ainda não é totalmente

estabelecido se ela é importante para casos esporádicos e casos familiares

(Malhotra e Sebat, 2012).

23

Também já foram reportados estudos com CNVs em transtorno de

déficit de atenção e hiperatividade, no qual ocorre uma sobreposição das

regiões cromossômicas ricas em CNVs associadas com autismo e

esquizofrenia (Williams et al., 2010) e síndrome de Tourette (ST), em que foi

observada uma sobreposição de CNVs com autismo (Fernandez et al.,

2012).

O primeiro estudo que procurou CNVs em uma amostra de probandos

com TOC foi feito em regiões cromossômicas específicas (cromossomos 15

e 22) associadas com as síndromes DiGeorge, síndrome VCFS e Prader-

Willi com a técnica denominada Multiplex Ligation-dependent

ProbeAmplification (MLPA), que possibilita a quantificação relativa pelo

número de cópias de mais ou menos 50 sequências de DNA em um

experimento. Os resultados desse estudo foram negativos (Delorme et al.,

2010). Uma das justificativas para esses resultados foi a limitação da técnica

utilizada para observar CNVs. A técnica de array, como comentado

anteriormente, permite observar em um único experimento milhares de

sequências de DNA.

Hooper et al. (2012) reportaram uma deleção na região de translocação

do cromossomo 6q, tendo utilizado a técnica de aCGH em um probando do

sexo masculino com síndrome de Tourette (ST) e TOC. Esta deleção foi

herdada da mãe, que também apresentou TOC, sugerindo-se uma região

candidata no cromossomo 6q16.

24

Recentemente, foi submetido à revista Molecular Psychiatry o primeiro

estudo de CNVs que usa a técnica de chip de DNA no genoma inteiro com

probandos com TOC e ST. Foram analisados 2699 probandos com TOC e

ST e 1789 controles. Dentro do grupo de probandos com TOC, foram

analisados o pai e a mãe de 348, formando trios. Esse estudo focou em

observar CNVs raras maiores do que 500kb, possivelmente associadas com

processos envolvidos com o neurodesenvolvimento. O principal achado foi

um enriquecimento de deleções na região cromossômica 16p13.11, já

reportada em autismo e esquizofrenia. Dentre estas CNVs, três foram de

novo, o que demostra também o envolvimento de variações de novo para

TOC e ST (MacGrath, In Press).

Estes achados de CNVs mostram que o modelo que inclui as variações

raras como associadas com o risco de desenvolver os transtornos mentais é

plausível e consistente. Estudos com variações raras trouxeram questões

interessantes relacionadas com variações, as quais são, de fato, importantes

para o risco de desenvolver os transtornos mentais (Malhotra e Sebat,

2012).

Sabe-se hoje que tanto as variações raras como as comuns têm um

papel no risco de desenvolver a maior parte dos transtornos mentais, e,

quando se fala das raras, aquelas consideradas de novo têm um papel

importante. Apesar de essas variações terem uma baixa frequência de

ocorrência por geração, podem deter um grande efeito genético para as

doenças. Elas oferecem uma explicação para a elevada incidência de

transtornos psiquiátricos dependente da idade do genitor de sexo masculino,

25

visto que estas “mutações” podem aparecer durante o processo de divisão

celular para a formação do espermatozoide. Quanto maior for a idade do pai,

menor é a eficiência da divisão celular e maior é a chance de ocorrer

mutações de novo. Entre 5% e 10% dos pacientes com autismo e

esquizofrenia há a contribuição de variações de novo. Os estudos de

mutações pontuais a partir do sequenciamento de exon podem aumentar a

compreensão do papel destas variações para os transtornos mentais (State

e Levitt, 2011)

2.6. Estudos de exon do genoma inteiro, para a busca de variações de

novo

A emergência da plataforma de sequenciamento de última geração

possibilitou uma minuciosa pesquisa das variações de uma troca de par de

bases, sendo elas raras ou comuns em todos os genes do genoma humano,

isto é, no exoma (Girard et al., 2011; O'roak et al., 2011; Sanders et al.,

2012; Mowry e Gratten, 2013; Yauk et al., 2013). Apesar de apenas 1% do

genoma ser constituído de regiões que codificam proteínas, é nessa

localidade que estão 85% das variações com um grande efeito no risco de

desenvolver doenças comuns (Goldstein, 2009; Manolio et al., 2009; Lehne

et al., 2011). A análise de sequenciamento do exon do genoma inteiro de

6515 indivíduos de etnias africana e europeia mostrou um excesso de

variações raras nas regiões que codificam proteína no genoma. Estas

variações são conhecidas como single nucleotide variation (SNVs). Este

26

grupo estimou, pelos modelos matemáticos, que 73% de todos os SNVs de

regiões que codificam proteínas e que 83% destas, previstas como

deletérias, tiveram sua origem entre 5 e 10 mil anos atrás. A distribuição

destas variações deletérias estão concentradas em genes envolvidos em

doenças, principalmente em doenças mendelianas. São variações que, por

causa da sua origem recente (cronologia da evolução), ainda não passaram

pela seleção de purificação e podem ser mecanismos genéticos novos

envolvidos no risco de desenvolver doenças (Fu et al., 2013).

Alguns grupos sequenciaram o exoma de famílias (trios - pai, mãe e

probando, e quartetos - pai mãe, probando e irmão não afetado) com

autismo (O'roak et al., 2011; 2012; Sanders et al., 2012; Yu et al., 2013) e

esquizofrenia (Girard et al., 2011; Xu et al., 2011), para observar variações

de novo em regiões que codificam proteína no genoma e caracterizaram

com sucesso genes que conferem risco para o desenvolvimento destes

transtornos. Os principais achados estão associados com a frequência de

ocorrência destas variações de novo em regiões que codificam proteína em

probandos, quando comparados com controles ou com irmãos não afetados.

Esta diferença é ainda maior quando estas variações são não sinônimas e

localizadas em genes que são expressos no cérebro e relacionados com

sinaptogênese (Awadalla et al., 2010; Girard et al., 2011; Sanders et al.,

2012; Tennessen et al., 2012).

Em TOC, poucos estudos foram feitos observando-se variações raras,

em sua maioria, missense, em genes candidatos. Estes foram feitos com o

gene SAPAP3, e foram encontradas algumas variações raras deste

27

associados com TOC e tricotilomania (Züchner et al., 2009) com o gene

SLC1A1/EAAC1, sem resultados positivos (Veenstra-Vanderweele et al.,

2012) e com o gene CDH2, em que uma variação rara foi encontrada em

probandos, e não em controles (Moya et al., 2013).

Visto a importância de estudar estas variações genômicas para o

processo de descoberta dos genes envolvidos no risco de desenvolver TOC,

este será o primeiro trabalho, até onde vai nosso conhecimento, feito com

uma abordagem de família, que utiliza a técnica de sequenciamento de exon

do genoma inteiro para observar as variações de novo em TOC.

28

3. MATERIAL E MÉTODOS

3.1. Aspectos Éticos

Este estudo esta incluído entre os estudos do Projeto Temático

2005/55628-8, aprovado pela Comissão de Ética para Análise de Projetos

de Pesquisa do HCFMUSP - CAPPesq em 12 de abril de 2006. O presente

estudo de sequenciamento em larga escala de exon do genoma inteiro em

trios de probandos com TOC, foi aprovado com um subprojeto do Projeto

Temático pela CAPPesq em 30/03/2011 n°0592/10 e ocorreu em paralelo

com os estudos já em andamento do PROTOC, no Instituto de Psiquiatria da

Faculdade de Medicina da Universidade de São Paulo.

Pacientes que fazem parte do ambulatório do PROTOC foram

convidados a participação no presente projeto, quando vieram à consulta no

ambulatório. Os questionários clínicos aplicados nestes pacientes para a

avaliação fenotípica já eram previstos nos ensaios clínicos em andamento.

Para maiores detalhes veja: Miguel et al., 2008; Hoexter et al., 2011.

Utilizamos apenas informações geradas a partir destes questionários. Os

familiares (genitores) são voluntários que não apresentam diagnóstico de

transtornos psiquiátricos do eixo I, recrutados para fazer parte dos estudos

de família em andamento e que aceitaram participar das pesquisas.

Todos os indivíduos participantes forneceram consentimento por

escrito, após terem recebido todas as informações relevantes sobre o

projeto.

29

3.2. Amostra

Grupo de casos

Para participação no estudo, utilizamos os seguintes critérios de

inclusão:

(1) idade entre 18 e 65 anos;

(2) diagnóstico de TOC de acordo com os critérios do DSM-IV com início

antes dos 16 anos de idade;

(3) escore mínimo na Escala Yale-Brown Obsessive-Compulsive Scale

(YBOCS) de 16 pontos; devido a este estudo estar associado a estudos de

tratamento, os critérios abaixo foram utilizados para a seleção da amostra,

apesar de não serem relacionados especificamente aos estudos de

genética;

(4) não estar em tratamento adequado no momento e não ter recebido

tratamento adequado previamente por período maior que 6 meses;

(5) aceitar participar de pesquisa clínica com possibilidade de uso de

medicação ou placebo;

(6) aceitar participar de pesquisa envolvida com genética humana e coletar

sangue ou saliva para posterior extração de DNA.

Foram utilizamos os seguintes critérios de exclusão no estudo:

30

(1) qualquer doença médica que apresentasse algum potencial para

invalidar ou tornar difícil a interpretação dos resultados clínicos (por

exemplo, antecedente de traumatismo crânio-encefálico com amnésia pós-

traumática);

(2) uso abusivo, no momento, e/ou dependência de álcool ou outras

substâncias psicoativas;

(3) presença, no momento, de sintomas psicóticos;

(4) risco moderado a grave de suicídio, no momento;

(5) presença de comorbidade psiquiátrica ou clínica que pudesse piorar com

o uso das medicações previstas no ensaio clínico supracitado;

(6) situações de gravidez ou amamentação, ou intenção de engravidar

dentro dos seis meses seguintes ao início do estudo.

3.3. Instrumentos de Avaliação

Todos os pacientes e controles foram submetidos a entrevistas e

aplicação de instrumentos que constam da Apostila de Primeiro Atendimento

(APA), que inclui informações detalhadas sobre dados sociodemográficos

(sexo, idade, naturalidade, estado civil, escolaridade, ocupação e nível

socioeconômico) e clínicos (idade de início, curso do TOC, presença e

gravidade dos sintomas obsessivo-compulsivos, antecedentes psiquiátricos

familiares, resposta a tratamentos, etc.), incluindo-se vários instrumentos

31

estruturados, da Entrevista Clínica Estruturada para o DSM-IV - Transtornos

do Eixo I (SCID-I/P - Structured Clinical Interview for DSM-IV Axis I

Disorders-patient edition) (First et al., 1995).

3.4. Grupo de familiares

Foram contatados familiares (genitores) de pacientes com TOC. Após

aceitarem participar desta pesquisa, tiveram seu sangue coletado para

posterior extração de DNA. Foi aplicada uma apostila de avaliação para

familiares elaborada por Sampaio et al. (2008). Esta apostila contém a

Entrevista Clínica Estruturada para o DSM-IV - Transtornos do Eixo I (SCID-

I/P - Structured Clinical Interview for DSM-IV Axis I Disorders-patient edition)

(First et al., 1995).

3.5. Avaliação laboratorial e Bioinformática

Extração de DNA

As amostras de DNA genômico foram obtidas a partir dos leucócitos do

sangue periférico dos pacientes, controles e familiares. Quinze ml de sangue

venoso foram coletados em tubo de EDTA e submetidos ao método de

extração utilizando-se sal (salting out), de acordo com Miller et al. (1988).

A quantificação e a pureza do DNA extraído foram obtidas por leitura

da absorbância na região do ultravioleta (UV) - comprimentos de onda de

32

260nm (quantificação de ácidos nucleicos) e 280nm (quantificação de

proteínas) em um espectrofotômetro (NanoDrop® ND-1000, Thermo

Scientific). O grau de pureza do DNA foi avaliado com base na razão entre

as leituras de 260nm e 280nm, uma vez que valores iguais ou superiores a

1,8 para essa relação sugerem que o DNA está essencialmente puro e

passível de ser usado na maioria dos procedimentos de manipulação

genética. A média da razão de 230nm/260nm foi 1,8 e da razão de

260nm/280nm foi 2,0. A integridade do DNA das amostras foi avaliada por

eletroforese em gel de agarose preparado com tampão TAE 1X (Tris 40mM;

Ácido Acético Gacial 20mM; EDTA 1mM; pH 8,0), contendo brometo de

etídio 1mg/ml (Sigma®, St. Louis, MO, EUA) com um marcador de peso

molecular de 100 pares de base.

3.6. Sequenciamento de exons do genoma inteiro

Cabe informar que todas as referências bibliográficas utilizadas na

descrição dos trabalhos que utilizam a metodologia de sequenciamento de

nucleotídeos em escala de exons do genoma inteiro, em psiquiatria, estão

na língua inglesa devido à ausência de trabalhos na língua portuguesa na

área. Para a busca de tradução dos termos: bridge amplification, target,

deep sequencing, read sequencing, trimmed, missense variation, single

nuleotide variation, broker gene, bridge gene, betweenness, utilizamos o

sistema de descritores em ciências da saúde (Decs: http://decs.bvs.br/), que

foi criado pela Biblioteca Regional de Medicina (BIREME). Estes termos não

33

estão no decs, mas apenas no Medical Subject Headings (MesH) da U.S

National Library of Medicine (NLM), a partir de que o decs foi desenvolvido,

e não têm correspondentes em português. Desta forma, eles foram escritos

nesta tese na língua inglesa, com destaque em itálico.

É nosso intuito propor a tradução dos termos MesH e decs para a

língua portuguesa. Para tanto, será encaminhada sugestão de tradução

destes termos achados na literatura, com o aval de três especialistas

brasileiros na área, para a BIRENE/OPAS, que oficialmente faz a tradução

para o português.

Pelo fato de provirem da língua inglesa os termos utilizados na

denominação das técnicas de sequenciamento de exoma, alinhamento e

identificação de variantes, além dos de componentes da rede de interação

entre proteínas, de suas características e de ferramentas de análises, e por

não possuírem muitos deles denominação adequada na língua portuguesa,

estão sendo utilizadas no presente trabalho em ambas as línguas, a fim de

evitar que seu significado seja alterado.

Após selecionar 20 trios de probandos com TOC esporádico e extraído

o DNA de cada indivíduo, foi realizado o experimento de sequenciamento de

exoma, que será descrito a seguir.

Captura e sequenciamento

A captura do exoma, o sequenciamento e a detecção das variantes

foram realizados no centro de análises genômicas da Universidade Yale

34

(Center for Genomic analysis – YCGA). Seguimos o protocolo de captura,

sequenciamento e detecção de variantes do genoma feito no artigo

recentemente publicado pelo grupo do Prof. Matthew W State (Sanders,

Murtha et al., 2012). A seguir, descreveremos estes métodos.

As amostras de DNA de sangue periférico foram preparadas, isto é,

enriquecidas de exons e hibridizadas utilizando-se o array NimbleGen

SeqCap EZ Exome (v2.0; Roche NimbleGen, Madison, WI, USA), com

targets de 45Mbp. O DNA enriquecido de exons foi sequenciado com

utilização da plataforma da Illumina HiSeq 2000 (Illumina, San Diego, CA).

Foi feito um sequenciamento de “pool multiplex” (agrupamento de múltiplos

indivíduos), isto é, foram sequenciadas quatro amostras por linha,

colocando-se probando e genitores juntos, quando possível.

O sequenciamento segue diversos passos descritos detalhadamente

na Figura 1. Resumidamente, existem 12 passos que compreendem a

preparação da amostra de DNA; o primeiro passo é a fragmentação do DNA

e a ligação de adaptadores às extremidades destes fragmentos de DNA.

Estes fragmentos são amplificados por ciclos de PCR. Os passos que

seguem a preparação são denominados cluster generation by bridge

amplification (geração de grupos por amplificação em ponte), que é a

amplificação dos fragmentos na plataforma (flow cell) onde há milhares de

canais com oligonucleotídeos de fita simples com sequências similares aos

adaptadores ligados aos fragmentos de DNA. Após a ligação do adaptador

aos fragmentos, estes são expostos a reagentes para a amplificação

baseada na reação da polimerase. A amplificação é feita em forma de

35

pontes. Repetidas desnaturações e extensões resultam em milhares de

moléculas de fita simples ao longo da flow cell (célula de fluxo) em forma de

agrupamento. Estes milhares de agrupamentos únicos de milhares de

moléculas são sequenciados. O primeiro ciclo de sequenciamento consiste

na incorporação de nucleotídeos com fluorescência, seguido de emissão de

laser de alta resolução para a leitura da primeira base do agrupamento

(clustering). Este ciclo é repetido para cada leitura de cada base dos

fragmentos. A identificação base é feita com auxílio de um algoritmo que faz

a transformação do sinal de luz em nucleotídeos (www.illumina.com.br).

Após esta etapa, as sequências, denominadas reads (“lidos”) (no nosso

experimento estas sequências têm tamanho de 74bp e são de dupla fita),

foram analisadas quanto a qualidades métricas do sequenciamento,

alinhadas em um genoma de referência, e as variações foram identificadas.

Estes passos estão descritos na Figura 1, a seguir.

http://www.illumina.com.br/

37

Figura 1: Etapas do sequenciamento, utilizando a tecnologia de sequenciamento de alta performance (high-performance sequencing - HiSeq) da empresa Illumina.

Adaptada do website da Illumina (www.illumina.com)

http://www.illumina.com/

38

Detecção das variações

Sequências lidas a partir das duas extremidades (Reads – paired-end)

de 74 bp sequenciadas foram analisadas quanto à qualidade métrica do

sequenciamento pelo protocolo denominado CASAVA, desenvolvido pela

Illumina, o qual também estimou a probabilidade de erro de cada base

identificada pelo programa Phred-like (Ewing e Green, 1998). Após esta

verificação de qualidade da técnica, estes reads foram alinhadas no genoma

inteiro de referência hg19/NCBI 36 usando-se o alinhamento Burrows-

Wheeler (BWA) (Li e Durbin, 2010). Os reads alinhadas foram aparadas

(trimmed), com os alvos (targets) do chip de exoma Nimblegen, utilizando-se

um programa desenvolvido no laboratório do Prof. Dr. Matthew Sate. Se o

read tivesse sobreposição de pelo menos 1 bp com a sonda (probe) do chip

Nimblegen, era considerada um “alvo” (target). Este passo é importante, pois

garante que os reads sejam sequências de exon do genoma. Todas as

sequências que não preencheram este critério foram descartadas. Os dados

do alinhamento foram convertidos em um formato binário para serem

analisados pela ferramenta SAMtool, que alinha a sequência e identifica

seus nucleotídeos. Utilizando esta ferramenta, foram removidas as

sequências que aparecem em duplicatas (Li, Handsaker et al., 2009) e

identificadas as variações pontuais no genoma, conhecidas como variações

de um nucleotídeo (single nuleotide variation -SNVs). As SNVs também

foram analisadas usando-se o banco de dados UCSC Genome Browser

(www.genoma.ucsc.edu).

http://www.genoma.ucsc.edu/

39

Após esta etapa de identificação das variantes, as variantes

identificadas passam a ser olhadas dentro da família, para observar as

variações de novo.

Busca de variações de novo, variações raras e variações novas

Consideraram-se critérios de seleção das variações de novo aquelas

variações com cobertura maior ou igual a 20 vezes - isto é, 20 sequências

representando cada base em todos os membros da família - e, além disso,

ser igual ou maior que 8 vezes para o probando a cobertura do nucleotídeo

em questão (aquele onde ocorreu a troca). Finalmente, este nucleotídeo não

poderia estar presente nos genitores. As variantes também foram filtradas

pelo escore de pelo menos 15 pelo programa Phred-like, que estima a

probabilidade de erro de cada base identificada (Ewing e Green, 1998).

Após esta etapa, selecionamos como variações de novo para as

nossas análises apenas as variações consideradas não sinônimas, isto é,

aquelas que modificam a expressão da proteína.

Todas as variações não sinônimas identificadas no sequenciamento

foram validadas com o emprego de PCR (reação de cadeia da polimerase) e

sequenciamento Sanger para cada membro das famílias nas quais a

variação foi identificada. Os primers foram desenhados utilizando-se o

programa Primer 3, que permite a amplificação de regiões onde estas

variações estão localizadas. Os oligonucleotídeos foram sintetizados pelo

Integrate DNA Tecnologies (IDT http://www.idtdn.com), e a região foi

amplificada pelo método de PCR em ambos os genitores e no probando.

http://www.idtdn.com/

40

Após a amplificação, o fragmento foi observado em gel de eletroforese. Os

fragmentos foram sequenciados via sequenciamento Sanger. Este

sequenciamento foi realizado no laboratório Yale Keck

(http://medicine.yale.edu/keck). As sequências foram amplificadas no sentido

senso (forward) e no sentido antisenso (reverse).

Foi calculada a taxa de variações não sinônimas por indivíduos,

dividindo-se o total de variações não sinônimas pelo total de probandos

analisados.

Análise de variações raras hereditárias e variações novas hereditárias

Após a análise das variações de novo, observamos as variações raras

e herdadas dos genitores. Para isto, usamos bancos de dados de

sequenciamento da população humana para observar se estas variações já

foram encontradas em outras populações e, caso afirmativo, qual sua

frequência de ocorrência.

Foram utilizados o banco de dados do projeto 1000 genomas

(http://www.1000genomes.org/) e o banco de dados do National Heart, Lung

and Blood Institute GO Exome Sequencing Project, que sequenciou 6512

indivíduos (http://evs.gs.washington.edu/). As variantes foram consideradas

raras quando a frequência do menor alelo (MAF) foi menor ou igual a 0.5%

em um destes dois bancos (Tennessen, Bigham et al., 2012). Todas as

variantes não encontradas nesses bancos foram consideradas novas e

podem ser específicas da população brasileira. Como ainda não temos um

banco de dados de sequenciamento da população brasileira, fizemos uma

http://medicine.yale.edu/keck

http://www.1000genomes.org/

http://evs.gs.washington.edu/

41

análise de processos biológicos considerando apenas estas variações

novas, que não sabemos ao certo se são raras ou não.

Observação da patogenicidade das variações de novo não sinônimas

Existem bancos de dados que estudam a evolução das proteínas, o

quanto elas são conservadas ou não ao longo das espécies. Acredita-se que

mutações em determinadas regiões que formam a proteína, isto é, em

determinado exon, podem ter um efeito deletério e patogênico (Grantham,

1974). Sendo assim, as variantes de novo não sinônimas foram ordenadas

(rank) quanto a seu efeito na estrutura e função da proteína expressa pelo

gene em questão. Para esta análise foi usado o escore Grantham

(Grantham, 1974). Este escore mede se as variações estão em locais

conservados da proteína ao longo da evolução. As variações foram

consideradas patogênicas se apresentassem o escore Grantham maior que

85 (O'roak et al., 2012). Também foi observado se estas variações são

sindrômicas ou não. Esta análise foi feita com utilização de informações do

banco de dados Online Mendelian Inheritance in Man (OMIM:

www.ncbi.nlm.nih.gov/omim/) e dados do PubMed (www.ncbi.com.br).

3.7. Redes de interação proteína-proteína (IPP) das variações de novo

(DNM)

Como foi apresentado anteriormente, as doenças complexas são

poligênicas, isto é, mais de um gene é fator de risco para o seu

http://www.ncbi.nlm.nih.gov/omim/

http://www.ncbi.com.br/

42

aparecimento (State et al., 2012). Esses genes podem interagir, como têm

mostrado os trabalhos de interação gene-gene. Porém, para esse tipo de

estudo é necessário um grande número de amostras e de genes (Cordell,

2009). Outra forma de estudar as interações que ocorrem entre genes é

observar seu produto, isto é, as proteínas.

Quando olhamos o funcionamento das células é possível observar que

nelas são expressas de centenas a milhares de proteínas e outras

macromoléculas, mediando milhares de interações físicas, que podem ser

interações entre proteínas, entre proteína e DNA, proteínas e RNA que

possibilitam o funcionamento da maquinaria celular (Vidal, 2005). Desta

forma, é essencial considerar as proteínas como redes de interações que

atuam de forma integrada formando um sistema complexo que rege diversas

funções celulares (Barabási e Oltvai, 2004).

O conceito de interatoma, definido como um conjunto de interações

físicas mediadas por proteínas, e o surgimento de banco de dados que

armazenam estas informações possibilitaram os estudos de complexos

sistemas de redes moleculares. Uma rede, ou grafo, é uma ferramenta

matemática usada para representar um grupo de elementos que interagem

entre si. Estas interações ocorrem em interações de pares. No caso de

redes biológicas, os componentes são as proteínas (chamadas também de

'nós da rede'), que são ligadas a outros nós por “arestas” ou “linhas”, as

quais representam a interação (Bell e Lewitter, 2006). Cada linha é

representada por uma interação física entre dois componentes e pode ser

direcionada - com especificação de um ponto de partida e um ponto alvo

43

final - ou não direcionada - que representa interações mútuas, como o que

ocorre com as proteínas (Barabási e Oltvai, 2004; Albert, 2005). A análise de

redes biológicas é uma maneira efetiva de descrever proteínas como grupos

de moléculas inter-relacionadas. Existem ferramentas, tais como o programa

Cytoscape (http://cytoscape.org/), que auxiliam nas análises de visualização

e permitem explorar uma série de atributos métricos da rede (Bell e Lewitter,

2006). Além disso, há uma série de algoritmos para criar layouts gráficos

dos dados (Saito et al., 2012). Levando-se em conta este contexto e

tentando-se observar as interações entre os produtos dos genes (proteína)

associados com estas variações raras de novo e que afetam a função da

proteína, foi gerada uma rede de interação proteína-proteína com a lista

destes genes com variações não sinônimas de novo. Qualquer referência a

genes na rede IPP e análises de processos biológicos se refere à interação

física entre seus produtos, as proteínas (Gandhi et al., 2006).

Para criar a rede e atributos, foi utilizada a ferramenta da internet

Interatoma de Alvos de Drogas - beta (Drug-Tagets Interactome - beta) que

integra três bancos de dados de interatoma (HPRD - Human Protein

Reference Database, MINT - The Molecular Interaction Database e the

IntAct Molecular Interaction Database) e tem conexão direta com o programa

Cytoscape (http://bioinfo.lbhc.hcancer.org.br/).

Calculamos as medidas de centralidade da rede para conseguir

classificar os genes de maior importância, segundo sua conectividade com

outros componentes da rede ou com módulos de componentes conectados

http://bioinfo.lbhc.hcancer.org.br/

44

na rede. A seguir, resumiremos as principais medidas de centralidade de

uma rede.

Os nós de uma rede podem ser caracterizados pelo número de

conexões (linhas) que possuem (nós adjacentes a ele), sendo esta

propriedade denominada grau do nó (node degree) (Gandhi et al., 2006).

Apesar de o grau do nó caracterizá-lo individualmente, é possível usar o

grau de distribuição (degree distribution) para quantificar a diversidade da

rede como um todo. O grau de distribuição de várias redes (como, por

exemplo, a internet ou redes metabólicas) segue uma distribuição conhecida

como lei da potenciação (power law). Esta distribuição indica que existe

grande diversidade nos graus dos nós e que não há nós típicos na rede que

possam ser usados para caracterizar todos os outros nós, isto é, a maioria

das proteínas interage com poucas proteínas, apenas algumas interagem

com diversas (Barabási e Oltvai, 2004; Bell e Lewitter, 2006). Estas

proteínas que interagem com diversas proteínas são chamadas de hubs e

são mais essenciais na rede (Albert, 2005; Bell e Lewitter, 2006).

A aderência da vizinhança de um nó i é geralmente quantificada pelo

coeficiente de agrupamento (clustering coefficient) e é definida como a razão

entre o número de conexões ligadas a nós adjacentes ao nó i e o número

total possível de conexões entre eles (Doncheva et al., 2012). O coeficiente

de agrupamento quantificará o quanto a vizinhança está interconectada. As

redes de interação proteica apresentam alto grau de coeficiente de

agrupamento, o que indica alto nível de aderência e redundância. A medida

denominada centralidade dos nós ponte (bridging centrality) mede qual nó

45

ou qual linha se localiza entre regiões bem conectadas da rede (Cai et al.,

2010).

A distância entre dois nós da rede é definida como o número de

conexões que os conecta. A medida métrica denominada caminhos entre

nós (betweenness) de uma proteína é o número de caminhos mais curtos

entre duas proteínas, isto é, o menor número de conexões entre proteínas

selecionadas. É uma medida global de centralidade na rede (Kim et al.,

2007).

Estas medidas de centralidade topológicas foram usadas para

identificar os hubs da rede, as proteínas com muitas conexões, corretores

(brokers) – são aquelas com alto grau de conectores e que conectam várias

proteínas que não seriam conectadas se o broker não estivesse na rede. Já

os nós pontes (bridges) das redes – são aquelas proteínas que conectam

cluster (agrupamentos) de nós bem conectados na rede (Cai et al., 2010).

Nós usamos o percentil 95% como um limiar da distribuição para selecionar

os melhores brokers e bridges da rede.

Como as redes de interação proteína-proteína são construídas com

base na interação de dados previamente publicados, existe um viés em

relação a representar na rede aqueles genes que foram mais estudados e

não aqueles que de fato estão associados com a doença. Desta forma, é

importante determinar se os genes que foram identificados como os

melhores brokers e bridges estão associados com a lista de genes inicial da

rede - que, no caso deste estudo, são aqueles com variações de novo

46

encontradas nos probandos com TOC e que podem estar associados com o

risco de desenvolver a doença. Além disso, verificar se estes genes

simplesmente apresentem alta probabilidade de ocorrer em qualquer rede

aleatória que se inicie com uma lista de genes aleatória, sendo esta lista

inicial composta do mesmo número de genes que a lista deste trabalho.

Para detectar se tal viés altera o resultado, fizemos 1000 simulações de

redes de IPP que começam, cada vez, com 9 genes aleatórios.

3.8. Priorização dos genes com variações de novo (DNM) relacionados

a genes candidatos de TOC

Programa DADA - algoritmo de grau informativo para redes baseado na

priorização de genes relacionado com doenças (Degree-Aware Algorithms

for Network-Based Disease Gene Prioritization- DADA)

Para investigar a relevância desta rede para o TOC, foi utilizando um

programa denominado algoritmo de grau informativo para redes baseado na

priorização de genes relacionado com doenças DADA - Degree-Aware

Algorithms for Network-Based Disease Gene Prioritization (Erten, et al.,

2011) que prioriza uma lista de genes candidatos levando em conta aqueles

que já se mostram associados ao TOC. Para esta análise, foi selecionada

uma lista de genes associados com TOC de uma meta-análise

recentemente publicada (Taylor, 2012). A lista de genes candidatos a ser

ranqueada foi a lista de genes com variações de novo não sinônimas

observadas neste estudo. É importante enfatizar que este ranque

47

(ordenamento) não está relacionado à causalidade de TOC, e sim à relação

destes genes com outros já associados com TOC, usando o interatoma

humano como base biológica para conexões entre produtos gênicos.

Processos biológicos dos genes com variações de novo (DNM)

Para investigar se a lista de genes identificados na rede IPP apresenta

algum processo biológico relevante para o TOC, os processos biológicos

foram analisados usando-se o programa de analises de processos

biológicos (Ingenuity Pathway Analysis - IPA, version 9.0, Ingenuity System,

http://www.ingenuity.com).

3.9. Processos biológicos dos genes com variações raras hereditárias

e variações novas hereditárias

Consultamos quais os processos e vias biológicas em que estes genes

com variações raras hereditárias e de variações novas hereditárias são mais

representados, utilizando como comparação os resultados de processos e

vias biológicas da banco de dados programa Ingenuity Pathway Analysis

(IPA, version 9.0, Ingenuity System, http://www.ingenuity.com). O programa

realiza um teste estatístico de Fisher para comparar a probabilidade de

ocorrências de determinado processo e via biológicos e apresenta os

processos e vias biológicos que foram mais representadas nos genes com

variações de novo em comparação com dados compostos de milhares de

genes que interagem entre si.

http://www.ingenuity.com/

http://www.ingenuity.com/

48

4. RESULTADOS

4.1. Característica da amostra

A amostra inicial compreendia 20 trios. Após o sequenciamento e a

predição das variações, encontramos um excessivo número de variações de

novo (DNM) em três trios sequenciados. Foi feita uma análise de

descendência familiar (IBD - identity-by-descent) nas famílias para observar

possível erro de identificação familial das amostras de DNA. Foram

selecionados 297 SNPs informativos para verificar a relação familiar entre as

amostras, utilizando-se o programa Plink (http://pngu.mgh.harvard.edu/). A

análise revelou erro de paternidade em três trios. Assim, os mesmos foram

excluídos da amostra total

Portanto, a amostra final compreendeu 17 trios, sendo 17 probandos

com TOC - 11 homens e 6 mulheres - e seus pais, que não apresentavam

diagnóstico de transtornos psiquiátricos do eixo I, avaliados a partir da

entrevista de famílias. A idade média de início dos sintomas de TOC foi 8,57

anos (dp= 2,72), e a média da gravidade dos sintomas de TOC foi 26,12

(desvio padrão= 5.70). Em relação ao número de comorbidades

apresentadas por cada probando, todos os probandos, exceto um,

apresentaram pelo menos um tipo de comorbidade, de acordo com os

instrumentos de avaliação da APA apresentados em métodos. A média das

comorbidades por probando foi 2,94 (desvio padrão= 1,86). A Tabela 2

descreve as comorbidades psiquiátricas, agrupadas segundo definições

mais abrangentes, apresentadas pelos probandos.

http://pngu.mgh.harvard.edu/

49

Tabela 2: Agrupamento dos transtornos psiquiátricos segundo definições mais abrangentes

Definições abrangentes Transtornos

Ansiedade de Separação Ansiedade Separação

TDAH Transtorno Déficit de Atenção e Hiperatividade

T. Tiques Síndrome de Tourette; T. de Tiques Motor ou Vocal Crônico

T. Ansiosos T. Pânico (com e sem Agorafobia); T. Ansiedade Generalizada; Fobia Simples; Fobia Social

TEPT Transtorno de Estresse Pós-Traumático

T. Espectro OC Tricotilomania; Dermatotilexomania (Skin Picking); T. Dismórfico Corporal

T. Controle- Impulsos Comprar Compulsivo; Jogo Patológico; Piromania; Abuso Internet; Abuso Videogame; Cleptomania; T. Sexual Não-Parafílico

T. Alimentares Anorexia Nervosa; Bulimia Nervosa; T. Compulsão Alimentar Periódica

A. Substâncias Abuso e Dependência de Álcool, Maconha, Cocaína, Estimulantes, Ópio, Alucinógenos

T. Somatoformes T. Somatoforme; T. Doloroso; T. Hipocondríaco

T. Humor T. Unipolar; T. Bipolar I; T. Bipolar II

T.= transtorno; TDAH= transtorno de déficit de atenção com hiperatividade; TEPT= transtorno de estresse pós-traumático; OC= obsessivo-compulsivo; A.=abuso

Os probandos apresentaram comorbidades dos grupos de transtornos

de tiques, de ansiosos, de déficit de atenção com hiperatividade (TDHA), de

estresse pós-traumático (TEPT), do espectro obsessivo, alimentares e

abuso de substâncias. Estes dados, juntamente com os dados demográficos

e dados de história familiar estão sumarizados na Tabela 3,

50

Tabela 3: Características demográficas e clínicas dos probandos com transtorno obsessivo-compulsivo (TOC)

ID Sexo

Idade do início dos sintomas Y-BOCS

História Médica Comorbidades Psiquiátricas (anos) escore Total

TOC0033 M 7 37 NA Tourette, fobia social, automutilação, TDM, TAG, TDC, TEPT

TOC0163 M 11 22 Enxaqueca Tiques, fobia Social, fobia específica, TAG, dermatilexoamania

TOC0187 F 12 24 NA TDM, fobia social, dermatilexoamania, pânico com agorafobia

TOC0189 M 8 30 NA Transtorno distímico TOC0200 M 12 21 NA TDM

TOC0216 F 8 25 NA MDD, transtorno de abuso de álcool, dermatilexoamania, Agorofobia sem pânico, TDC, transtorno alimentar

TOC0322 F 7 19 NA NA TOC0477 M 5 28 NA TAG, TDM

TOC1291 M 14 28 Paralisia cerebral, tremores nas mãos, asma, bronquite

Tourette, agorafobia sem Pânico, fobia específica, TAG

TOC1353 F 5 17 NA Fobia específica, TDC, dermatilexoamania, TAG, automutilação

TOC1398 F 7 26 Enxaqueca No TOC1446 M 10 20 NA Tiques, dermatilexoamania, TDM TOC1759 M 10 30 NA TDM, TDAH, TAG TOC1765 F 6 29 NA TAG, dermatilexoamania, TDAH TOC1814 M 5 33 Trauma TAG, TEPT, TDM, TDAH TOC0485 M 10 34 NA Fobia social, TDM TOC0433 M 8 21 NA Tourette

Y-BOCS, Yale-Brown Escala de gravidade de sintomas obsessivo-compulsivos; TOC, transtorno obsessivo compulsivo; TDM, transtorno depressivo maior; TAG, ansiedade generalizada; TDC, transtorno dismórfico corporal; TEPT, transtorno do estresse pós-traumático; TDAH, transtorno do déficit de atenção e hiperatividade

51

4.2. Resultados do Sequenciamento

Em média, 111,1% de reads (sequências lidas) foram sequenciadas, e

98,5% de todas as sequências foram alinhadas com sucesso no genoma de

referência. Em média, 84,4% das reads foram aparadas (trimmed) de acordo

com os alvos do chip de exoma Nimblegen. A captura de exons foi efetiva,

em média 94,5% das sequências foram cobertas por 8 ou mais reads

(fenômeno denominado deep cover). Na Tabela 4 é possível observar

informações tais como o total de sequências em milhões de pares de bases,

a porcentagem de sequências duplicadas que foram descartadas, a média

total de sequências com cobertura em amplitude de 4, 8 e 20 vezes, assim

como a quantidade total de sequências codificadoras analisadas.

Tabela 4: Resumo dos dados de sequenciamento dos exons dos 17 trios com TOC (n=51 amostras)

Variável Média (95% IC)

Total sequências (milhões) 111,1(±0,3)

% de sequências alinhadas 98,5% (±0,01%)

% de sequências alvo 84,4% (±0,03%)

% sequências duplicadas 6,23% (±0,02%)

Cobertura média 80,8x (±0,2x)

% de sequência alvo com 4× 97,3% (±0,02%)



Taxa de erro de pares de base 0,3% (±0,0006%)

Razão transição/transversão 2,61 (±0,004%)

dbSNP132, (National Center for Biotechnology Information) Single Nucleotide Polymorphism Database, v132

52

4.3. Identificação das Variações de novo (DNM)

Como foi mostrado, em média, 98,5% das sequências geradas por

cada indivíduo foram alinhadas corretamente no genoma de referência e

94,5% dos alvos foram identificados por ≥ 8 reads. Somente os nucleotídeos

sequenciados identificados por ≥ 20 reads em toda a família (trio) foram

considerados na detecção das DNM.

Em 80,6% de todas as bases sequenciadas verificamos se as

variações eram de novo. Neste estudo consideramos apenas as DNM não

sinônimas (nonsense e missense) para a validação por sequenciamento

Sanger e na análise de rede.

A taxa de ocorrência de variação de novo não siônima por indivíduo foi

0,59. Isto é, o número de variações não sinônimas por probando é 0,59.

As etapas seguintes ao resultado da confirmação das variações, ou

seja, patogenicidade da variação e rede de interação proteína – proteína

(IPP), foram feitas com estas variações.

Nos anexos A, B, C e D, apresentamos uma análise preliminar feita

com todas as variações consideradas codificadoras (que estão dentro do

exon). Esta análise é preliminar, pois não foram feitas as validações das

variantes identificadas por métodos de bioinformática. Porém, como

apresentamos a seguir, a porcentagem de predição foi confirmada em

90,9%. Desta forma, as análises preliminares podem ser consideradas

altamente confiáveis.

53

Confirmação das variações

Foram preditas 11 DNM. Dez foram confirmadas pelo sequenciamento

Sanger. A porcentagem de confirmação foi de 90,9%.

Dentre as dez DNM, uma foi nonsense e nove foram missense.

Somente uma destas DNM não ocorreu em gene que, sabidamente, tenha

expressão no cérebro. Duas delas também foram associadas com

processos de sinaptogênese (Tabela 5). Nenhuma destas variações foi

reportada no banco de dados do NCBI Single Nucleotide Polymorphism

Database, v132 (http://www.ncbi.nlm.nih.gov/snp) sendo, assim, consideradas

novas. Na Tabela 5, descrevemos estas variações.

http://www.ncbi.nlm.nih.gov/snp

54

Tabela 5: Sumário das variações de novo (DNM) encontradas em probandos com transtorno obsessivo-compulsivo (TOC), a partir do sequenciamento em larga escala de última geração, e validadas pelo método sequenciamento Sanger

Indivíduo Cr Posição (hg19) Gene

Expresso

Alelo

Refe-rência

Alelo Mutan-te

Zigosi-dade

Base mutante

1 Tipo Mutação

Aminoácido substituição

Phred score

Grantham Score

Cére-bro

Sinapse (0-40)

TOC129101 2 219894325 CCDC108 Sim Não C T Het 23 Substituição Missense E484K 28 56

TOC129101 4 102993556 BANK1 Sim Não A T Het 49 Substituição Missense K633M 30 95

TOC129101 5 16783451 MYO10 Sim Não C T Het 48 Substituição Missense E199K 28 56

TOC139801 1 207755290 CR1 Não Não T A Het 39 Substituição Missense S1748R 37 110

TOC175901 16 71807129 AP1G1 Sim Sim T C Het 27 Substituição Missense K155E 25 56

TOC016301 15 75891017 SNUPN Sim Não A C Het 19 Substituição Missense D255E 27 45

TOC018901 3 10380029 ATP2B2 Sim Sim A G Het 15 Substituição Missense I1084T 31 89

TOC181401 10 28971325 BAMBI Sim Não G A Het 25 Substituição Missense V260I 36 29

TOC032201 8 87423972 WWP1 Sim Sim A G Het 39 Substituição Missense I310M 37 10

TOC032201 10 50678378 ERCC6 Sim Não T A Het 42 Substituição Nonsense K1210X 29 215

Cr, cromossomo; Het, heterozigoto

1Leitura da base mutante

2 Base mutante/Total de leitura das bases (cover deep). O Score Phred é um escore relacionado com a probabilidade de erro de cada base identificada. Um escore

igual ou maior que 30 é considerado de probabilidade de erro de 1/1000 erros na identificação da base (nucleotídeo). Os valores deste escore para as variações que foram validadas são muito próximos de 30, apesar de o limiar utilizado neste estudo ter sido um escore ≥15, segundo análises da qualidade do sequenciamento e da porcentagem da taxa de erros de identificação de bases (Sanders, Murtha et al., 2012). O Grantham Score é um escore que identifica quanto uma modificação em

determinada região do exon é deletéria para a função da proteína, isto é, se a variação ocorrer em sítios da proteína considerados conservados ao longo da evolução, ela é considerada deletéria. Escores acima de 85 são considerados muito deletérios para o funcionamento da proteína (O'roak, Vives et al., 2012).

55

Observação da patogenicidade das DNM não-sinônimas

Baseados no escore Grantham ≥ 85, identificamos quatro genes (CR1,

BANK1, ATP2B2 e ERCC6) com escore maior ou igual a 85. Dentre estes, os

genes ATP2B2 e ERCC6 já foram descritos como associados a síndromes no

OMIM. O gene ERCC6 é associado com a Síndrome de Cockayne, uma

síndrome rara autossômica recessiva congênita. E o gene ATP2B2 é associado

com uma síndrome de surdez, também autossômica recessiva. Estas duas

síndromes têm números de OMIM 601386 (deafness) e 609413 (Cockayne).

Até o presente momento, nenhum trabalho no PubMed reporta alguma

associação destas síndromes com TOC.

4.4. Redes de interação proteína-proteína (IPP) das variações de novo

(DNM)

Dez genes com DNM validadas foram incluídos na análise da rede IPP.

Um destes dez genes não foi encontrado no interatoma e foi excluído da

análise. Nove genes formaram a lista de genes semente (seed list), e a partir

desta lista iniciamos a análise de redes, usando os dados do interatoma. A

rede apresentou 129 genes que interagem. Foram calculadas as medidas de

centralidade da rede para cada um desses genes. A partir dessas medidas

foram calculados os melhores brokers e bridges da rede, isto é, aqueles com

56

os valores dentro do percentil 5% da distribuição dos dados, como mostra a

Figura 3.

Figura 2: Exemplo de planilha de análise métrica da rede (interação proteína-proteína)

Como mostra a Figura 2, é possível observar a lista dos nós da rede, se

os nós fazem parte da lista semente ou não, e quantas conexões cada nó

(proteína) apresenta. Na coluna H está representado o valor dos brokering para

cada gene. É com esses que se calcula o percentil dos dados e se definem os

melhores brokers. De forma semelhante, analisamos quais são os genes

bridges. As colunas que seguem na tabela são: nós (proteínas), grau do nó

(conexões das proteínas); grau do nó normalizado (conexões da proteína

normalizada; betwenness (caminhos mais curtos entre duas proteínas),

betwenness normalizado (caminhos mais curtos entre duas proteínas

57

normalizado); agrupamento; brokering (corretores) e bridging centralidade (nós

que se localizam entre regiões bem conectadas da rede).

Figura 3: Representação das melhores proteínas corretoras (brokers) e proteínas ponte (bridges), considerando-se um percentil de 95% da distribuição dos dados

A rede apresentou um total de 5 brokers e 6 bridges (ver Figura 3). Três

dos genes da lista semente foram classificados como brokers. Estes genes

são: WWP1, A1P1G1 e CR1 e estão representados na Figura 4 a seguir.

58

Figura 4: Rede de interação proteína-proteína (IPP)

Nove dos dez genes da lista inicial com variações de novo não sinônimas

encontradas em probandos com TOC estão conectados na rede IPP (Figura

4). Oito desses genes são expressos no cérebro humano e dois estão

envolvidos com sinaptogênese. As proteínas com um círculo verde são os

genes da lista inicial. Como usamos o interatoma para fazer a rede, os

símbolos representados nas redes são relacionados a proteínas. Estas

proteínas são expressas pelos genes de interesse neste estudo. Os nós da

rede são proteínas são mostradas na rede por círculos com o nome de cada

proteína de referência). As linhas da rede são também chamadas de arestas, e

são elas que mostram a interação entre os nós (proteínas) da rede. As

59

proteínas (genes) em rosa são as consideradas brokers, isto é, aquelas com

alto grau de conectores. Estas conexões são feitas entre proteínas que não

seriam conectadas se não existisse a broker. Já as bridges, que são as

proteínas consideradas pontes, conectam agrupamentos de nós bem

conectados. Elas são representadas pela cor azul.

O resultado das 1000 simulações sugere que apenas o gene DLG4

apareceu mais do que 20 vezes em redes aleatórias. Este valor foi

estabelecido como um valor de corte, segundo a distribuição dos dados da

rede nas simulações. Achados que ocorreram menos do que 20 vezes podem

ser achados aleatórios, isto é, um gene pode ser representativo nos processos

de interação de genes no interatoma, independentemente de estar associado

com o transtorno estudado.

Depois de construir a rede, foi usado um algoritmo para observar a

importância destes achados na rede de IPP, considerando-se uma lista de

genes associados com o risco de desenvolver TOC.

4.5. Programa DADA – priorização de genes candidatos

Para buscar uma associação dos genes com variações não sinônimas com

genes candidatos para TOC fizemos a analise utilizando o programa DADA

Os resultados do programa ordenaram a lista de genes semente em relação à

lista de genes candidatos da meta-análise de Taylor (Taylor, 2012). Os dois

genes que encabeçam a lista foram WWP1 e ATP2P2 (Tabela 5). É possível

60

observar também na tabela 5 que os genes considerados brokers têm alta

conectividade na rede de IPP.

Tabela 6: Lista de nove genes (proteínas) com mutações de novo (DNM), ordenados pelo algoritmo de grau informativo para redes com base na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA

Genes Ordenação Interação Coeficiente de agrupamento

Componente da rede

Gene (proteína) broker

WWP1 1 26 0.01231 Sim Sim ATP2B2 2 8 0.14286 Sim Não MYO10 3 8 0.00000 Sim Não ERCC6 4 11 0.14545 Sim Não BANK1 5 5 0.10000 Sim Não AP1G1 6 26 0.02154 Sim Sim SNUPN 7 8 0.00000 Sim Não CR1 8 13 0.01282 Sim Sim BAMBI 9 1 0.00000 Sim Não

Genes da rede IPP com DNM não sinônimas ordenados por associação aos genes com valor de p significativo na meta-análise, com sumário de atributos

Foi gerada uma rede com o resultado do programa DADA, para observar

visualmente seus resultados, que mostra a associação entre os genes da lista

de sementes (genes com DNM) e os reportados pela meta-análise de TOC.

Esta rede é o resultado do interatoma da lista de genes sementes de DNM não

sinônimos com o interatoma da lista de genes candidatos (Figura 5).

61

Figura 5: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com lista de proteínas com mutações de novo (DNM) não sinônimas.

Como mostra a Figura 5, nove proteínas (genes) com DNM não

sinônimas em amarelo e genes (proteínas) com SNPs comuns associados com

o risco de TOC (20 genes) em vermelho. As proteínas consideradas brokers,

isto é, aquelas com alto grau de conectores e com conexão feita entre

proteínas que não seriam conectadas se não existisse a broker, estão em rosa.

As bridges, que são as proteínas consideradas pontes - conectam

agrupamentos de nós bem conectados, estão representadas pela cor azul.

62

4.6. Análise de processos e vias biológicas

Após esta análise de genes e redes, foram feitas análises dos processos

biológicos dos quais eles participam. Foram feitas três análises com listas de

genes diferentes: a primeira, com os genes com DNMs não sinônimas e os

genes que interagem com eles na rede IPP; a segunda, com os genes com

variações consideradas raras, segundo bancos de dados de exoma disponíveis

na web; e a terceira, com os genes com variações novas. A seguir, a descrição

de cada análise.

4.7. Processos biológicos de genes da rede IPP das variações de novo

não sinônimas

Foram analisados 129 genes componentes da rede IPP de variações de

novo não sinônimas com utilização do programa Ingenuity (IPA). A Tabela 7

mostra os processos biológicos que foram associados aos genes em questão.

Alguns desses genes também são brokers (AP1G1, CR1 e CALM1) e bridges

(IL2RG e CR2) da rede IPP, o que reforça o valor da rede e a importância

destes genes na caracterização dos possíveis processos biológicos envolvidos

com o risco de desenvolver TOC.

63

Tabela 7: Análise dos processos biológicos dos 129 genes que integram a rede de interação proteína-proteína IPP), mutações de novo

IPA processos biológicos P-valor Proporção Sequência de referência do gene

Sistema complemento 1.77E-07 6/33 CR1, CD55, C3, C4B, C1QA, CR2

Sinalização CTLA4 do linfócito T citotóxico

5.42E-07 8/95 AP1S1, AP1M2, GRB2, AP1S2, PPP2R2B, CLTC, AP1G1, AP1B1

Sinalização de FGE 1.67E-06 6/48 GRB2, ITPR2, ITPR1, RASA1, PRKCA, EGFR

Sinalização da p70S6K 4.64E-06 8/122 IL2RG, PRKCI, YWHAE, GRB2, PPP2R2B, PRKCA, EGRF

Sinalização da I PI3K dos linfócitos B

5.59E-06 8/128 CALM1, PRKCI, C3, ITPR2, LYN, ITPR1, NFKB1, CR2

Legenda: IPA, Ingenuity Pathway Analysis (programa). CTLA4: antígeno-4 associado ao linfócito T

citotóxico, envolvido com produção de citocinas e imunoglobulinas. FGE: fator de crescimento epidérmico, P7OS6K: Proteínas Quinases S6 Ribossômicas 70-KDa envolvidas na regulação celular I PI3K: enzima fosfatidilinontol-3-cinase envolvidos com a neuroproteção celular. A representação dos processos biológicos é comparada com o banco de dados de milhares de interações entre genes do programa IPA, tendo como base a lista de genes que integram a rede IPP de variações de novo não sinônimas. Os cinco processos biológicos com menores valores de p são apresentados. O processo biológico com realce em

cinza mostra aquele também encontrado na análise de processos biológicos das variações novas. Os genes com realce em cinza são os genes presentes na rede IPP que são classificados como brokers ou bridges.

4.8. Porcessos biológicos das variações raras herdadas e variações

novas herdadas

Variações raras herdadas

Foram selecionados 27 genes que apresentavam variações com

frequência de ocorrência de 0,5% (banco de dados do sequenciamento dos

6512 genomas e 1000 genomas), já descritos em Métodos. Na Tabela 8 é

possível observar os processos biológicos associados aos genes nos quais se

encontram variações raras herdadas.

64

Tabela 8: Análise dos processos biológicos dos 27 genes com variações raras (frequência de ocorrência 0,5%) em probando com transtorno obsessivo-compulsivo (TOC)

IPA processos biológicos P-valor Proporção Sequência de referência do gene

Reparo da quebra da dupla fita de DNA pela recombinação homóloga

1.67E-02 1/17 ATRX

Biossíntese de Leucotrienos 1,67E-02 1/27 GGT1

Ciclo do Gama Glutamil 1.67E-06 1/27 GGT1

Legenda. IPA, Ingenuity Pathway Analysis (programa). Leucotrienos = lipídios que participam do

processo de inflamação crônica. A representação dos processos biológicos é comparada com o banco de dados de milhares de interações entre genes do programa IPA, tendo como base a lista de genes com variações raras sequenciadas neste estudo e presentes em probandos com TOC. Os três processos biológicos com menores valores de p são apresentados. O processo biológico com realce em cinza

mostra aquele também encontrado na análise de processos biológicos das variações novas. A via do Gama Glutamil esta representada no anexo E.

Variações novas

Foram selecionados 335 genes que apresentaram pelo menos uma variação

considerada nova. Consideramos novas aquelas variações que não estavam

presentes nos 1000 genomas, nem no banco de dados do sequenciamento de

6512 indivíduos, nem no site do NCBI.

Os processos biológicos associados aos genes em que se encontraram SNVs

estão representados na Tabela 9.

Tabela 9: Análise dos processos biológicos dos 470 genes com variações de troca de um nucleotídeo (SNVs) novas, em probandos com transtorno obsessivo-compulsivo (TOC)

IPA processos biológicos Valor de P- Proporção Identificação do gene

Reparo da quebra da dupla fita de DNA pela recombinação homóloga

1.37E-02 2/17 POLA1, ATRX

Sinalização celular envolvida com a doença do enxerto-versus-hospedeiro

2.16E-02 3/50 TRB, KIR2DL3, HLA-DRB5

Comunicação entre células dendríticas e células exterminadoras naturais (células NK)

2.84E-02 4/95 CSF2RB, KIR2DL3, KIR2DL4/LOC100287534,HLA-DRB5

Sinalização CTLA4 do linfócito T citotóxico

3.16E-02 4/98 TRB, CLTCL1, AP1B1, HLA-DRB5

Sinalização do Nur77 no Linfócito T 3.43E-02 3/63 TRB, MAPK7, HLA-DRB5

65

Legenda: IPA, Ingenuity Pathway Analysis (programa) TOC, transtorno obsessivo compulsivo. Nur77= receptor nuclear da subfamília 4 do grupo A membro1. É um fator de transcrição envolvido com ciclo celular, inflamação e apoptose celular. CTLA4: antígeno-4 associado ao linfócito T citotóxico, envolvido com produção de citocinas e imunoglobulinas. A representação dos processos biológicos é comparada com o genoma inteiro, tendo como base a lista de genes com SNVs não sinônimas. Os cinco processos biológicos com menores valores de p são apresentados. O processo biológico com realce em cinza mostra aqueles também encontrados na análise de processos biológicos das variações de novo e de variações raras.

Como mencionado no começo desta sessão, na sessão anexos

encontram-se as listas de todas as variações não codificantes preditas, a rede

IPP das proteínas destes genes e a análise que usa o programa DADA.

66

5. DISCUSSÃO

O presente estudo investigou a ocorrência de variações de novo e raras

em probandos com TOC e em seus genitores.

A partir da confirmação da ocorrência das variações de novo, foi

construída uma rede de interação proteína-proteína que apontou os genes

mais importantes da rede. Além disso, analisamos a interação desses genes

com vários genes candidatos para TOC e realizamos uma análise de quais

processos biológicos e vias de sinalização estavam associados aos genes que

apresentaram variações de novo. O principal foco terem sido as variações de

novo não sinônimas, esta seleção baseou-se nos resultados dos artigos

publicados, utilizando-se os mesmos métodos. Esses autores demostram que

são estas as variações que, de fato, estão associadas com o risco para o

transtorno em questão e que a frequência de ocorrência delas é maior em

probandos quando comparadas com controles ou irmãos não afetados (Girard

et al., 2011; O'roak et al., 2012; Sanders et al., 2012) também fizemos uma

análise de processo e vias biológicas de variações raras e novas, além de uma

análise preliminar de todas as variações de novo codificantes, mesmo aquelas

que não foram validadas em um experimento biológico (sequenciamento

Sanger).

Pelo que se sabe, este é o primeiro estudo de sequenciamento de exoma

em larga escala no genoma inteiro que visa a procurar variações de novo e

raras passíveis de conferir risco de desenvolver TOC. A seguir, discutiremos os

principais resultados deste estudo.

67

5.1. Caraterísticas clínicas dos probandos e variações de novo

Os probandos com TOC analisados (n=17) eram, em sua maioria, casos

com idade de início precoce dos sintomas (média de 8,5 anos), alta ocorrência

de comorbidade com transtornos de tiques, ansiosos e do espectro obsessivo-

compulsivo. Alguns estudos indicam uma associação entre idade de início dos

sintomas de TOC, herdabilidade genética e ocorrência de determinadas

comorbidades, tais como Síndrome de Tourette (ST) e transtornos ansiosos

(Leckman et al., 2003; Bolton et al., 2007; Miguel et al., 2005)

Dentre os 17 probandos com TOC, sete apresentaram pelo menos uma

variação de novo (DNM) classificada como não sinônimas. Foi validado um

total de 10 DNMs não sinônimas. Resultado similar foi apurado em um estudo

de sequenciamento do exoma com 14 portadores de esquizofrenia e seus

genitores, que encontrou 15 DNM não sinônimas em oito deles (Girard et al.,

2011).

Dentre as 10 DNMs validadas, uma foi nonsense e nove foram missense.

A ocorrência de DNMs nonsense com relação à ocorrência de missense foi de

1:9. As variações nonsense são mais deletérias e associadas com maior risco

de desenvolver doenças (Kryukov et al., 2007). Para esquizofrenia, esta

ocorrência foi de 4:15, mesma proporção que aparece em doenças

mendelianas (Girard et al., 2011). Apesar de o valor encontrado no presente

trabalho ser menor que os achados em esquizofrenia e doenças mendelianas,

a ocorrência de variações nonsense é quase o dobro da ocorrência na

população em geral (1:20) (Kryukov et al., 2007).

68

A taxa de DNMs não sinônimas medidas por probando no presente

estudo foi de 0,59. Taxa similar (0,63) para DNMs não sinônimas por indivíduos

foi encontrada em um estudo de sequenciamento com famílias de autismo

(Sanders et al., 2012). Nesse mesmo estudo foram sequenciados os irmãos

saudáveis de probandos com autismo, que mostraram uma taxa de DNMs não

sinônimas por indivíduo de 0,4 (Sanders et al., 2012). A ocorrência de DNM no

presente estudo é maior que a ocorrência em controles do estudo de Sanders

et al. (2012) e um pouco menor que a ocorrência em autistas, o que pode ser

um indício de associação destas DNMs com o risco de desenvolver TOC.

Alguns estudos reportaram a taxa de DNM por geração, e este valor está entre

1,10-1,20 x 10-8 DNM por geração e por genoma humano diploide (Durbin et

al., 2010; Lynch, 2010; Roach et al., 2010). Diferentemente deste trabalho,

essa taxa leva em consideração para seu cálculo o número de bases

sequenciadas e todas as variações codificadoras, podendo ser elas mutações

silenciosas, mutações não sinônimas ou mutações em sítios de splicing

(mecanismo de retirada dos introns no processo de transcrição da proteína).

5.2. rede de Interação proteína-proteína

Todas as análises discutidas a seguir são de predição de genes e

processos biológicos. Estas análises relacionam achados biológicos de bancos

de dados públicos e usam algoritmos matemáticos para predizer possíveis

interações entre genes e proteínas. Esses resultados geram hipóteses do

envolvimento dos genes no risco de desenvolver TOC. Cada análise

69

sequencial apresentada a seguir complementa a anterior, o que deixa cada

hipótese mais robusta.

As medidas de patogenicidade das DMNs mostram que duas variações

que ocorrem nos genes ATP2B2 e ERCC6 e são consideradas patogênicas

segundo o escore Grantham. Tratam-se de mutações que ocorrem em genes

associados com síndromes genéticas. O gene ERCC6 é associado com a

síndrome de Cockayne, uma síndrome rara autossômica recessiva congênita.

Os principais sintomas desta síndrome são caracterizados por inúmeros

problemas metabólicos em vários órgãos; alguns deles são sensibilidade à luz

solar, atraso no desenvolvimento motor e cognitivo e problemas auditivos. E o

gene ATP2B2 é associado com uma síndrome envolvendo surdez, também

autossômica recessiva. Apesar de essas síndromes não estarem associadas

com sintomas de TOC, esses genes poderiam ter um efeito pleiotrópico, isto é,

o mesmo gene estaria associado com mais de um fenótipo (State e Levitt,

2011). Achados nesta direção são reportados em uma revisão de CNVs em

psiquiatria. Nessa revisão os autores mostram que muitas das CNVs

importantes para o risco de desenvolver transtornos mentais estão em regiões

associadas com síndromes clínicas diversas (Malhotra e Sebat, 2012).

O pequeno número de trios analisado neste estudo evidenciou poucos

genes com DNMs não sinônimas. Genes e proteínas interagem para o

funcionamento das funções celulares. Transtornos mentais refletem alterações

em redes e circuitos cerebrais que por sua vez resultam da expressão de

genes modulados pela interação entre genes e o ambiente ao longo do

processo de neurodesenvolvimento (Barabási e Oltvai, 2004; State e Šestan,

70

2012). No presente estudo fizemos uma análise de rede de interação de

proteínas usando princípios da biologia de sistemas com o intuito de gerar

hipóteses a respeito de processos biológicos que estariam envolvidos nos

genes afetados.

Levando-se em consideração que os produtos dos genes (proteínas) que

são associados com determinada doença apresentam alta probabilidade de

interagir fisicamente (Erten et al., 2011), elaboramos uma rede de interação

física proteína-proteína (IPP), usando os genes com DNMs não sinônimas

(genes semente). Os resultados da rede sugerem que os genes WWP1

(domínio WW que contém a proteína ubiquitina ligase E3), AP1G1 (complexo

de proteína relacionada ao adaptador 1 subunidade gama 1 -adaptor-related

protein complex 1 gamma 1 subunit) e CR1 (receptor complemento tipo 1)

foram classificados como brokers na rede (genes que são altamente

conectados na rede). Os três fazem parte da lista de genes semente, os genes

com DNMs.

O gene WWP1 inibe a atividade de transcrição celular induzida pela

transformação do fator de crescimento beta (TGF-β), o qual é membro da

família de citocinas, que mantêm a homeostase imunológica do corpo humano.

O TGF-β1 está envolvido com migração neuronal, processos de

sinaptogênese, principalmente do sistema glutamatérgico e gabaérgico, e é

importante para os processos de neurodesenvolvimento (Heupel et al., 2008).

Alguns autores têm procurado associação de genes ou proteínas de

citocinas envolvidas com o TOC. Uma meta-análise feita com o nível de

71

citocinas proinflamatórias no plasma de pacientes com TOC não mostrou níveis

alterados, quando comparados com controles. Entretanto, esta meta-análise

tem uma série de limitações, tais como amostra pequena, pequeno número de

estudos para compor a análise, uso de medicação e comorbidade com

depressão (Gray, 2012). Trabalhos prévios do nosso grupo, no entanto,

estudando polimorfismos em genes que expressam citocina (TNFA),

apontaram uma associação de alguns polimorfismos na região promotora do

gene com o risco de desenvolver TOC (Hounie et al., 2008; Cappi et al., 2012).

Além disso, outros estudos demostram o papel de algumas citocinas nos

processos de memória e aprendizado, e evidenciam o seu envolvimento no

TOC (Mcafoose e Baune, 2009; Bagans et al., 2013; Fontenelle et al., 2011;

Cai et al., 2013; Wu et al., 2013; Alonso et al., 2012).

De fato, o sistema imunológico interage com o SNC e vice-versa

(Deverman e Patterson, 2009). Citocinas são envolvidas com aspectos normais

do neurodesenvolvimento, incluindo-se diferenciação celular, migração celular

e formação de sinapse (Mcafoose e Baune, 2009). Ademais, citocinas agem

como estressores imunológicos - causam mudanças neuroquímicas e ativam

outros processos que têm influência intracelular em mecanismos de morte

celular e oxidativos. Esses mecanismos estão associados com o

desenvolvimento de transtornos ansiosos e de humor (Konuk et al., 2007).

O gene CR1 é membro da família que regula a ativação do sistema

complemento e é um mediador da atividade da imunidade inata. Foi reportada

uma variação no exon do gene CR1 associada com o declínio de memória

72

episódica (Keenan et al., 2012). Já foram reportados achados que sugerem

deficiência em memória episódica e função executiva no TOC (Kuelz et al.,

2004; Airaksinen et al., 2005).

O gene AP1G1 é um componente de vesículas revestidas por clatrina e

está envolvido com o transporte de moléculas do Complexo de Golgi para o

lisossomo. Até o momento, não existe relato que relacione este gene com

transtorno mental. No entanto, o resultado do programa DADA mostrou que ele

está muito próximo dos genes SLC6A4, transportador de serotonina, e MAOA

(monoamina oxidase), ambos já associados com TOC (Karayiorgou et al.,

1999; Voyiaziakis et al., 2011).

Dois outros importantes genes brokers são o CALM1 e o DLG4. O gene

CALM1 codifica a proteína Ca++/Calmodulin (CaM), que faz parte da cascata

de sinalização que aumenta a função das sinapses glutamatérgicas envolvidas

com aprendizado e memória (Barria et al., 1997; Malenka e Nicoll, 1999). O

gene DLG4 (disc homologo 4 (Drosofila)) é um membro do complexo de

densidade pós-sináptica e já foi associado com esquizofrenia, autismo e TDAH

Muitas linhas de evidências mostram o envolvimento do sistema

glutamatérgico com o risco de desenvolver TOC; os estudos de neuroimagem

relacionam a disfunção de sinapses glutamatégicas com o circuito striato-

tálamo-cortical, este, envolvido com a etiologia do TOC (Ting e Feng, 2008;

Arnold et al., 2009).

O envolvimento do sistema glutamatérgico com TOC também já foi

reportado por muito estudos genéticos (Stewart, 2013). O gene SLC1A1, que

73

codifica o transportador de glutamato, é o único gene candidato que foi

replicado em amostras de TOC independentes. Outro gene importante do

sistema glutamatérgico para TOC é o DLGAP3 ( Züchner et al., 2009; Bienvenu

et al., 2009). Existem esforços para avaliar agentes que modulam os

neurotransmissores glutamatérgicos no tratamento do TOC (Ting e Feng,

2008).

Neste trabalho, um dos processos biológicos significativos em genes com

variações raras herdadas foi o ciclo de Gamma Glutamil. Este é a via de

formação do glutamato, muito estudada para tratamento farmacológico de

agentes, com base no sitema glutamatérgico para TOC (Bhattacharyya e

Chakraborty, 2007).

O gene com maior ranque, de acordo com o DADA, é o WWP1. Ele está

próximo dos genes SLC1A1, GRIK2 e SLC6A4, que foram associados ao TOC

em vários estudos (Taylor, 2012).

O segundo gene com maior ranque, usando-se o programa DADA, foi o

ATP2B2 (ATPase, Ca++ transporting plasma membrane 2 gene), que é

envolvido com a homeostase celular de cálcio. Ele é expresso no cérebro e tem

um importante papel no sistema sensorial. Os transportadores de cálcio têm

um papel importante na transmissão do sinal nas sinapses. SNPs deste gene já

foram associados com autismo (Carayol et al., 2011). Recentemente, dados de

GWAS de cinco transtornos mentais (autismo, esquizofrenia, depressão maior,

esquizofrenia e TDAH) apontaram para o envolvimento de genes que

participam na sinalização de cálcio com o risco de desenvolver esses cinco

74

transtornos. Este seria mais um efeito pleiotrópico desse gene (Cross-Disorder

Group of the Psychiatric Genomics Consortium, et al., 2013).

O gene ATP2B2 está próximo aos genes DLG4 e OLIG 2 (fator de

transcrição 2 de oligodendrócito) e é expresso em amígdala, tálamo e núcleo

caudado - regiões cerebrais que fazem parte do substrato neuroanatômico

descrito no TOC (Stewart et al., 2007a).

Na maioria das redes observadas, os nós geralmente não são próximos

uns dos outros, mas interagem de modo que existe uma via relativamente curta

entre dois deles. Esta propriedade é denominada área restrita (small world) e

caracteriza as redes mais complexas, tais como interação entre proteínas. É

uma propriedade importante, pois garante uma resposta rápida a alterações da

rede. Acredita-se que a modificação da arquitetura da rede esteja associada

com doença. No entanto, para este tipo de rede, a perda de múltiplos

componentes é necessária para que a rede não funcione como um todo

(Barabási, 2004; Albert, 2005). Geralmente os hubs (nós com muitas conexões)

estão no centro da rede e tendem a ser mais importantes que aqueles que

estão na periferia. Há mais chance de mutações em hubs provocarem defeitos

na rede do que mutações que ocorrem em nós na periferia (Zhu et al., 2007).

Levando-se em conta a rede IPP apenas com DNMs não sinônimos, considera-

se que ela mostra que, dentro do sistema físico de interação desses genes, os

genes da lista inicial (lista semente) são muito importantes para o

funcionamento da rede, isto é, eles são brokers, com alto grau de interação, e

conectam muitos nós que não seriam conectados. Os genes AP1G1, CR1 e

WWP1 são brokers que parecem formar módulos distintos de conectores

75

dentro da rede. Eles são conectados pelos outros módulos por meio dos

bridges (genes que conectam módulos de nós conectados). Observando-se a

função desses genes além dos genes CALM1 e DLG4, que também são

brokers, surge a hipótese de que eles façam parte de sistemas diferentes que

estão interligados. Os genes WWP1, DLG4 e CALM1 se envolvem com

sinaptogênese cerebral, mais especificamente com o sistema glutamatégico,

memória e aprendizado. Já o gene CR1 está envolvido com a imunidade inata,

embora já tenha sido associado com deficiência de memória. O outro

agrupamento de nós conectados da rede tem como broker o gene AP1G1, que

é um adaptador de vesícula e está envolvido com o transporte de moléculas do

complexo de Golgi para o lissossoma, no processo de digestão celular. O gene

PACS1, que é um bridge da rede e conecta o módulo do gene AP1G1, é um

regulador de transporte transmembrana do complexo de Golgi, altamente

expresso no desenvolvimento embrionário do cérebro e com pouca expressão

depois do nascimento. Uma mutação de novo neste gene já foi relacionada a

deficiência intelectual (Schuurs-Hoeijmakers et al., 2012). Outro bridge

conectado a este agrupamento é o gene ZNF512B, um fator de transcrição

com função desconhecida, mas que foi reportado como promotor de baixa

expressão de um gene na sinalização da tradução do TGF-β. O TGF-β é

importante na sinaptogênese e se relaciona com o sistema de citocinas

(Tetsuka et al., 2013). Esses achados são muito interessantes quando se

considera que há estudos que sugerem o envolvimento dos sistemas

imunológico interagindo com o glutamatérgico no TOC (Rotge et al., 2010). Da

mesma forma, quando observamos a rede da interação dos genes da meta-

análise de TOC com os genes com DNMs não sinônimas, é possível observar

76

que os com DNM estão na periferia da rede e são envolvidos com o sistema

imunológico. Estes, por sua vez, estão conectados com genes envolvidos com

os sistemas glutamatégico e serotoninérgico, que estão em posição mais

central na rede.

De fato, já foi demostrado que genes com DNM não sinônimas têm maior

chance de ocorrer na periferia da rede, pelo seu efeito deletério e por serem

variações novas. A periferia da rede estaria mais envolvida com evolução

adaptativa, isto é, mais com produção de proteínas que interagem com

mudanças ambientais do que com proteínas centrais, que têm funções

essenciais conservadas. Outro destaque na literatura ocorre em relação às

funções celulares. A periferia da rede estaria associada com funções celulares

periféricas, ou sistema celulares periféricos, como os envolvidos com resposta

imunológica (Kim et al., 2007). Os achados deste trabalho mostram que os

genes envolvidos com sistema imunológico e com DNM não sinônimas estão

na periferia da rede, e que estas proteínas (genes) da periferia na rede estão

interagindo com os genes mais centrais envolvidos com sistema nervoso

central, sinaptogênese e neurotransmissores. Se confirmados em futuros

estudos, estes dados sugerem que mecanismos genéticos relacionados com

transtornos mentais podem implicar DNMs não sinônimas altamente deletérias,

que ocorrem em genes da periferia celular, mas que estão envolvidas com

funções extremamente importantes do SNC. É interessante notar que as

variações genéticas mais encontradas nos genes que expressam

neurotransmissores são os SNPs comuns. Sabe-se que estes polimorfismos

conferem pouco risco de desenvolver os transtornos mentais e que têm um

77

efeito aditivo, isto é, quando se observa seu efeito individual eles são menos

deletérios do que as variações não sinônimas raras.

Vale ressaltar que alguns estudos reportaram que as DNM têm uma

chance maior de ocorrer em genes envolvidos com o sistema imunológico do

que os envolvidos com o SNC e que, de fato, eles podem ser o resultado do

acelerado crescimento populacional, que contribui para o surgimento de novos

mecanismos implicados no desenvolvimento de transtornos mentais (Kryukov

et al., 2007; Ng et al., 2009; Fu et al., 2013).

5.3. Processos biológicos

As variações raras e novas herdadas foram analisadas com relação aos

processos biológicos dos genes que as contêm. Analisamos apenas os

probando com TOC.

Os resultados tanto para variações raras, variações novas e variações

DNM mostram processos biológicos envolvidos com o sistema imunológico,

fato que corrobora os achados das redes de IPP.

Dentre as diversas variações do genoma observadas com métodos de

sequenciamento de exon em larga escala, as variações com uma frequência de

ocorrência menor ou igual a 0,5% são altamente deletérias e consideradas

envolvidas com doença.

78

Resultados de todas as variações de novo codificantes

Apesar de o principal foco deste estudo serem as variações não

sinônimas e as raras herdadas, foi feita uma análise dos genes relacionados

com todas as variações codificantes e de novo. Para estas análises, o número

inicial de genes foi maior, e desta forma os achados podem ser mais robustos.

Observou-se que os mesmos brokers da rede com DNMs não sinônimas são

os mesmos da rede de todas as DNMs codificantes, o que reforça o papel

desses genes.

A rede formada pela associação desses genes com a metanálise de TOC

demostrou dois módulos de nós conectados distintos na rede, que se conectam

por meio dos genes pontes (bridges). Novamente aqui, um dos módulos está

relacionado com as variações comuns (genes da metanálise feita com SNPs

com frequência de ocorrência 5%) e com genes envolvidos com processos

glutamatérgicos e serotonérgicos. Da mesma forma, o outro se compõe dos

genes com DNM em regiões codificantes, associados com sistema

imunológico. Estes achados reforçam a hipótese das relações bi-direcionais

entre o sistema imunológico e o sistema nervoso central e de que alterações

num ou outro sistema estão associadas a maior risco do desenvolvimento de

TOC (Jones e Thomsen, 2012; Hou e Baldwin, 2012; Schmidt et al., 2011).

Vale ressaltar que, similar ao resultado do presente trabalho que

demostra que os genes com DNM estão envolvidos com sinaptogênese e com

o sistema glutamatérgico, os achados do GWAS para TOC também reportaram

genes com SNPs comuns que estão associados aos mesmos mecanismos de

79

sinaptogênese e ao sistema glutamatérgico, tais como o gene ADCY8 e o gene

ISM1, apesar de não terem sido previamente estudados em TOC (Stewart et al,

2012).

5.4. Limitações

A maior limitação deste trabalho é o pequeno número de amostras

sequenciadas. Quando se estudam variações raras que ocorrem com uma

frequência baixa, é necessária uma amostra grande para estimar

adequadamente o número de variantes envolvidas com o risco de desenvolver

a doença. Entretanto, este é o primeiro estudo feito com sequenciamento de

última geração que observa que as DNMs raras têm um papel na conferição do

risco de desenvolver TOC. Estudos com uma amostra maior são necessários e

poderão confirmar e continuar a contribuir para a descoberta do envolvimento

destas variações de novo raras e novas em regiões que codificam proteínas.

Apesar disto, os achados deste estudo mostram o envolvimento dos

genes com variações de novo e raras com processos de sinaptogênese e com

o sistema glutamatérgico. Os processos biológicos são implicados com o

sistema imunológico, mas os resultados da rede IPP apontam para o

envolvimento do sistema imunológico com a função de neurodesenvolvimento

e com o processo cognitivo.

80

6. CONCLUSÃO

As principais conclusões deste trabalho são:

1. Sete de 17 probandos com TOC apresentaram pelo menos uma variação

de novo (DNM) não sinônima. A taxa de ocorrência desta mutações por

indivíduo foi maior quando comparamos com controle sem transtorno

mental. Estas variações são consideradas deletérias

2. Estudos de interação proteína-proteína mostram que os genes WWP1,

CR1 e AP1G1 com variações DNM não sinônimas, encontrados neste

estudo, são corretores (brokers) da rede e estão relacionados com

processos do neurodesenvolvimento cerebral, tais como, sinaptôgenes e

migração neuronal e sistema imunológicos.

3. Estes genes com variações não sinônimas interagem com genes

candidatos já relatados na literatura para TOC.

4. Os Processos biológicos mais representativos dos genes com variações

DNM, raras e novas mostram o envolvimento entre sistemas imunológico

e sistema glutamatérgico.

81

7. REFERÊNCIAS BIBLIOGRÁFICAS

Airaksinen E, Larsson M, Forsell Y. Neuropsychological functions in anxiety

disorders in population-based samples: evidence of episodic memory

dysfunction. J Psychiatr Res. 2005; 39(2):207-14.

Albert R. Scale-free networks in cell biology. J Cell Sci. 2005; 118 (Pt 21):4947-

57.

Alkan C, Coe BP, Eichler EE. Genome structural variation discovery and

genotyping. Nat Rev Genet. 2011; 12(5):363-76.

Alsobrook II JP, Leckman JF, Goodman WK, Rasmussen SA, Pauls DL.

Segregation analysis of obsessive-compulsive disorder using symptom-based

factor scores. Am J Med Genet. 1999; 88(6):669-75.

Andrews G, Stewart G, Allen R, Henderson AS. The genetics of six neurotic

disorders: a twin study. J Affect Disord. 1990; 19(1):23-9.

Arnold PD, Sicard T, Burroughs E, Richter MA, Kennedy JL. Glutamate

transporter gene SLC1A1 associated with obsessive-compulsive disorder. Arch

Gen Psychiatry. 2006; 63(7):769-76.

Atmaca M, Onalan E, Yildirim H, Yuce H, Koc M, Korkmaz S. The association of

myelin oligodendrocyte glycoprotein gene and white matter volume in

obsessive-compulsive disorder. J Affect Disord. 2010; 124(3):309-13.

Awadalla P, Gauthier J, Myers RA, Casals F, Hamdan FF, Griffing AR, et al.

Direct measure of the de novo mutation rate in autism and schizophrenia

cohorts. Am J Hum Genet. 2010; 87(3):316-24.

Barabási AL, Oltvai ZN. Network biology: understanding the cell's functional

organization. Nat Rev Genet. 2004; 5(2):101-13.

Barria A, Muller D, Derkach V, Griffith LC, Soderling TR. Regulatory

phosphorylation of AMPA-type glutamate receptors by CaM-KII during long-

term potentiation. Science. 1997; 276(5321):2042-5.

82

Beckmann JS, Estivill X, Antonarakis SE. Copy number variants and genetic

traits: closer to the resolution of phenotypic to genotypic variability. Nat Rev

Genet. 2007; 8(8):639-46.

Bell GW, Lewitter F. Visualizing networks. Methods Enzymol. 2006; 411:408-21.

Bienvenu OJ, Wang Y, Shugart YY, Welch JM, Grados MA, Fyer AJ, et al.

Sapap3 and pathological grooming in humans: Results from the OCD

collaborative genetics study. Am J Med Genet B Neuropsychiatr Genet. 2009;

150B(5):710-20.

Black DW, Noyes R, Goldstein RB, Blum N. A family study of obsessive-

compulsive disorder. Arch Gen Psychiatry. 1992; 49(5):362-8.

Boardman L, van der Merwe L, Lochner C, Kinnear CJ, Seedat S, Stein DJ, et

al. Investigating SAPAP3 variants in the etiology of obsessive-compulsive

disorder and trichotillomania in the South African white population. Compr

Psychiatry. 2011; 52(2):181-7.

Bolton D, Rijsdijk F, O'Connor TG, Perrin S, Eley TC. Obsessive-compulsive

disorder, tics and anxiety in 6-year-old twins. Psychol Med. 2007; 37(1):39-48.

Cai JJ, Borenstein E, Petrov DA. Broker genes in human disease. Genome Biol

Evol. 2010; 2:815-25.

Cappi C, Muniz RK, Sampaio AS, Cordeiro Q, Brentani H, Palácios SA, et al.

Association study between functional polymorphisms in the TNF-alpha gene

and obsessive-compulsive disorder. Arq Neuropsiquiatr. 2012; 70 (2):87-90.

Carayol J, Sacco R, Tores F, Rousseau F, Lewin P, Hager J, et al. Converging

evidence for an association of ATP2B2 allelic variants with autism in male

subjects. Biol Psychiatry. 2011; 70(9):880-7.

Cavallini MC, Bertelli S, Chiapparino D, Riboldi S, Bellodi L. Complex

segregation analysis of obsessive-compulsive disorder in 141 families of eating

disorder probands, with and without obsessive-compulsive disorder. Am J Med

Genet. 2000; 96(3):384-91.

83

Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang Y, et al. Origins

and functional impact of copy number variation in the human genome. Nature.

2010; 464(7289):704-12.

Consortium C-DGotPG. Identification of risk loci with shared effects on five

major psychiatric disorders: a genome-wide analysis. Lancet. 2013.

Consortium IH. A haplotype map of the human genome. Nature. 2005;

437(7063):1299-320.

Consortium IS. Rare chromosomal deletions and duplications increase risk of

schizophrenia. Nature. 2008; 455 (7210):237-41.

Cordell HJ. Detecting gene-gene interactions that underlie human diseases. Nat

Rev Genet. 2009; 10(6):392-404.

Davis KL, Yu D, Keenan C, Gamazon E, Konkashbaev A, Derks ME, et al.

Partitioning the Heritability of Tourette Syndrome and Obsessive Compulsive

Disorder Reveals Differences In Genetic Architecture. Plos One. 2013

de Mathis MA, do Rosario MC, Diniz JB, Torres AR, Shavitt RG, Ferrão YA, et

al. Obsessive-compulsive disorder: influence of age at onset on comorbidity

patterns. Eur Psychiatry. 2008; 23(3):187-94.

Deverman BE, Patterson PH. Cytokines and CNS development. Neuron. 2009;

64(1):61-78.

Dickel DE, Veenstra-VanderWeele J, Cox NJ, Wu X, Fischer DJ, Van Etten-Lee

M, et al. Association testing of the positional and functional candidate gene

SLC1A1/EAAC1 in early-onset obsessive-compulsive disorder. Arch Gen

Psychiatry. 2006; 63(7):778-85.

do Rosario-Campos MC, Leckman JF, Curi M, Quatrano S, Katsovitch L, Miguel

EC, et al. A family study of early-onset obsessive-compulsive disorder. Am J

Med Genet B Neuropsychiatr Genet. 2005; 136B(1):92-7.

Doncheva NT, Assenov Y, Domingues FS, Albrecht M. Topological analysis

and interactive visualization of biological networks and protein structures. Nat

Protoc. 2012; 7(4):670-85.

84

Durbin RM, Abecasis GR, Altshuler DL, Auton A, Brooks LD, Gibbs RA, et al. A

map of human genome variation from population-scale sequencing. Nature.

2010; 467(7319):1061-73.

Eichler EE, Flint J, Gibson G, Kong A, Leal SM, Moore JH, et al. Missing

heritability and strategies for finding the underlying causes of complex disease.

Nat Rev Genet. 2010; 11(6):446-50.

Erten S, Bebek G, Ewing RM, Koyutürk M. DADA: Degree-Aware Algorithms for

Network-Based Disease Gene Prioritization. BioData Min. 2011; 4:19.

Ewing B, Green P. Base-calling of automated sequencer traces using phred. II.

Error probabilities. Genome Res. 1998; 8(3):186-94.

Fernandez TV, Sanders SJ, Yurkiewicz IR, Ercan-Sencicek AG, Kim YS,

Fishman DO, et al. Rare copy number variants in tourette syndrome disrupt

genes in histaminergic pathways and overlap with autism. Biol Psychiatry. 2012;

71(5):392-402.

First, MB. Structural Clinical Interview for DSM-IV-TR Impulse Control Disorders

Not Elsewhere Classified (SCID-TCIm). Biometrics Research Department; New

York State Psychiatric Institute. (2004)

Fu W, O'Connor TD, Jun G, Kang HM, Abecasis G, Leal SM, et al. Analysis of

6,515 exomes reveals the recent origin of most human protein-coding variants.

Nature. 2013; 493(7431):216-20.

Gandhi TK, Zhong J, Mathivanan S, Karthick L, Chandrika KN, Mohan SS, et al.

Analysis of the human protein interactome and comparison with yeast, worm

and fly interaction datasets. Nat Genet. 2006; 38(3):285-93.

Gilman SR, Iossifov I, Levy D, Ronemus M, Wigler M, Vitkup D. Rare de novo

variants associated with autism implicate a large functional network of genes

involved in formation and function of synapses. Neuron. 2011; 70(5):898-907.

Girard SL, Gauthier J, Noreau A, Xiong L, Zhou S, Jouan L, et al. Increased

exonic de novo mutation rate in individuals with schizophrenia. Nat Genet.

2011; 43(9):860-3.

85

Glessner JT, Wang K, Cai G, Korvatska O, Kim CE, Wood S, et al. Autism

genome-wide copy number variation reveals ubiquitin and neuronal genes.

Nature. 2009; 459(7246):569-73.

Goldstein DB. Common genetic variation and human traits. N Engl J Med. 2009;

360(17):1696-8.

Gonzales C. Estudo de famílias no Transtorno Obsessivo Compulsivo. Tese de

doutorado. Universidade Federal de São Paulo, São Paulo, SP. 2003. p. 227.

Gottesman II. Twins: en route to QTLs for cognition. Science. 1997;

276(5318):1522-3.

Grabe HJ, Ruhrmann S, Ettelt S, Buhtz F, Hochrein A, Schulze-Rauschenbach

S, et al. Familiality of obsessive-compulsive disorder in nonclinical and clinical

subjects. Am J Psychiatry. 2006; 163(11):1986-92.

Grantham R. Amino acid difference formula to help explain protein evolution.

Science. 1974; 185(4154):862-4.

Gray SM, Bloch MH. Systematic review of proinflammatory cytokines in

obsessive-compulsive disorder. Curr Psychiatry Rep. 2012; 14(3): 220-8.

Haber SN, Heilbronner SR. Translational research in OCD: circuitry and

mechanisms. Neuropsychopharmacology. 2013; 38(1):252-3.

Hall D, Dhilla A, Charalambous A, Gogos JA, Karayiorgou M. Sequence

variants of the brain-derived neurotrophic factor (BDNF) gene are strongly

associated with obsessive-compulsive disorder. Am J Hum Genet. 2003;

73(2):370-6.

Hanna GL, Fingerlin TE, Himle JA, Boehnke M. Complex segregation analysis

of obsessive-compulsive disorder in families with pediatric probands. Hum

Hered. 2005; 60(1):1-9.

Hanna GL, Veenstra-VanderWeele J, Cox NJ, Boehnke M, Himle JA, Curtis

GC, et al. Genome-wide linkage analysis of families with obsessive-compulsive

disorder ascertained through pediatric probands. Am J Med Genet. 2002;

114(5):541-52.

86

Hanna GL, Veenstra-Vanderweele J, Cox NJ, Van Etten M, Fischer DJ, Himle

JA, et al. Evidence for a susceptibility locus on chromosome 10p15 in early-

onset obsessive-compulsive disorder. Biol Psychiatry. 2007; 62(8):856-62.

Hanna GL, Veenstra-Vanderweele J, Cox NJ, Van Etten M, Fischer DJ, Himle

JA, et al. Evidence for a susceptibility locus on chromosome 10p15 in early-

onset obsessive-compulsive disorder. Biol Psychiatry. 2007; 62(8):856-62.

Heupel K, Sargsyan V, Plomp JJ, Rickmann M, Varoqueaux F, Zhang W, et al.

Loss of transforming growth factor-beta 2 leads to impairment of central

synapse function. Neural Dev. 2008; 3:25.

Hinds DA, Stuve LL, Nilsen GB, Halperin E, Eskin E, Ballinger DG, et al. Whole-

genome patterns of common DNA variation in three human populations.

Science. 2005; 307(5712):1072-9.

Hooper SD, Johansson AC, Tellgren-Roth C, Stattin EL, Dahl N, Cavelier L, et

al. Genome-wide sequencing for the identification of rearrangements associated

with Tourette syndrome and obsessive-compulsive disorder. BMC Med Genet.

2012; 13:123.

Hou, R. ; Baldwin, D. S. A neuroimmunological perspective on anxiety

disorders. Human Psychopharmacol. 2012; 27 (1): 6-14.

Hounie AG, Cappi C, Cordeiro Q, Sampaio AS, Moraes I, Rosário MC, et al.

TNF-alpha polymorphisms are associated with obsessive-compulsive disorder.

Neurosci Lett. 2008; 442(2):86-90.

Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, et al.

Detection of large-scale variation in the human genome. Nat Genet. 2004;

36(9):949-51.

Inouye E. Similar And Dissimilar Manifestations Of Obsessive-Compulsive

Neuroses In Monozygotic Twins. Am J Psychiatry. 1965; 121:1171-5.

Insel T. Obsessive-compulsive disorder. Psychiatr Clin North Am. 1985;

8(1):105-17.

Jones KA, Thomsen C. The role of the innate immune system in psychiatric

disorders. Mol Cell Neurosci. 2013; 53:52-62.

87

Jonnal AH, Gardner CO, Prescott CA, Kendler KS. Obsessive and compulsive

symptoms in a general population sample of female twins. Am J Med Genet.

2000; 96(6):791-6.

Karayiorgou M, Sobin C, Blundell ML, Galke BL, Malinova L, Goldberg P, et al.

Family-based association studies support a sexually dimorphic effect of COMT

and MAOA on genetic susceptibility to obsessive-compulsive disorder. Biol

Psychiatry. 1999; 45(9):1178-89.

Keenan BT, Shulman JM, Chibnik LB, Raj T, Tran D, Sabuncu MR, et al. A

coding variant in CR1 interacts with APOE-ε4 to influence cognitive decline.

Hum Mol Genet. 2012; 21(10):2377-88.

Kim PM, Korbel JO, Gerstein MB. Positive selection at the protein network

periphery: evaluation in terms of structural constraints and cellular context. Proc

Natl Acad Sci U S A. 2007; 104(51):20274-9.

Kirov G, Grozeva D, Norton N, Ivanov D, Mantripragada KK, Holmans P, et al.

Support for the involvement of large copy number variants in the pathogenesis

of schizophrenia. Hum Mol Genet. 2009; 18(8):1497-503.

Konuk N, Tekin IO, Ozturk U, Atik L, Atasoy N, Bektas S, et al. Plasma levels of

tumor necrosis factor-alpha and interleukin-6 in obsessive compulsive disorder.

Mediators Inflamm. 2007; 2007:65704.

Kryukov GV, Pennacchio LA, Sunyaev SR. Most rare missense alleles are

deleterious in humans: implications for complex disease and association

studies. Am J Hum Genet. 2007; 80(4):727-39.

Kuelz AK, Hohagen F, Voderholzer U. Neuropsychological performance in

obsessive-compulsive disorder: a critical review. Biol Psychol. 2004; 65(3):185-

236.

Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial

sequencing and analysis of the human genome. Nature. 2001; 409(6822):860-

921.

Leckman J, Grice D, Boardman J, Zhang H, Vitale A, Bondi C, et al. Symptoms

of obsessive-compulsive disorder. Am J Psychiatry. 1997; 154(7):911-7.

88

Leckman JF, Pauls DL, Zhang H, Rosario-Campos MC, Katsovich L, Kidd KK,

et al. Obsessive-compulsive symptom dimensions in affected sibling pairs

diagnosed with Gilles de la Tourette syndrome. Am J Med Genet B

Neuropsychiatr Genet. 2003; 116B(1):60-8.

Lee C, Scherer SW. The clinical context of copy number variation in the human

genome. Expert Rev Mol Med. 2010; 12:e8.

Lehne B, Lewis CM, Schlitt T. Exome localization of complex disease

association signals. BMC Genomics. 2011; 12:92.

Lenane MC, Swedo SE, Leonard H, Pauls DL, Sceery W, Rapoport JL.

Psychiatric disorders in first degree relatives of children and adolescents with

obsessive compulsive disorder. J Am Acad Child Adolesc Psychiatry. 1990;

29(3):407-12.

Levy D, Ronemus M, Yamrom B, Lee YH, Leotta A, Kendall J, et al. Rare de

novo and transmitted copy-number variation in autistic spectrum disorders.

Neuron. 2011; 70(5):886-97.

Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler

transform. Bioinformatics. 2010; 26(5):589-95.

Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The

Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009;

25(16):2078-9.

Liang KY, Wang Y, Shugart YY, Grados M, Fyer AJ, Rauch S, et al. Evidence

for potential relationship between SLC1A1 and a putative genetic linkage region

on chromosome 14q to obsessive-compulsive disorder with compulsive

hoarding. Am J Med Genet B Neuropsychiatr Genet. 2008; 147B(6):1000-2.

Lynch M. Rate, molecular spectrum, and consequences of human mutation.

Proc Natl Acad Sci U S A. 2010; 107(3):961-8.

Malenka RC, Nicoll RA. Long-term potentiation--a decade of progress?

Science. 1999; 285(5435):1870-4.

89

Malhotra D, McCarthy S, Michaelson JJ, Vacic V, Burdick KE, Yoon S, et al.

High frequencies of de novo CNVs in bipolar disorder and schizophrenia.

Neuron. 2011; 72(6):951-63.

Malhotra D, Sebat J. CNVs: harbingers of a rare variant revolution in psychiatric

genetics. Cell. 2012; 148(6):1223-41.

Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, et al.

Finding the missing heritability of complex diseases. Nature. 2009;

461(7265):747-53.

Marshall CR, Noor A, Vincent JB, Lionel AC, Feuk L, Skaug J, et al. Structural

variation of chromosomes in autism spectrum disorder. Am J Hum Genet. 2008;

82(2):477-88.

Mathews CA, Badner JA, Andresen JM, Sheppard B, Himle JA, Grant JE, et al.

Genome-wide linkage analysis of obsessive-compulsive disorder implicates

chromosome 1p36. Biol Psychiatry. 2012; 72(8):629-36.

Matsunaga H, Seedat S. Obsessive-compulsive spectrum disorders: cross-

national and ethnic issues. CNS Spectr. 2007; 12(5):392-400.

McAfoose J, Baune BT. Evidence for a cytokine model of cognitive function.

Neurosci Biobehav Rev. 2009; 33(3):355-66.

McCarroll SA, Kuruvilla FG, Korn JM, Cawley S, Nemesh J, Wysoker A, et al.

Integrated detection and population-genetic analysis of SNPs and copy number

variation. Nat Genet. 2008; 40(10):1166-74.

McGrath ML, Yu D, Marshall C , Davis KL, Thiruvahindrapuram B, Li B, et al. A

cross-disorder, genome-wide analysis of copy number variation in Tourette

Syndrome and Obsessive-Compulsive Disorder. Molecular Psychiatric. 2013

Miguel EC, Leckman JF, Rauch S, do Rosario-Campos MC, Hounie AG,

Mercadante MT, et al. Obsessive-compulsive disorder phenotypes: implications

for genetic studies. Mol Psychiatry. 2005; 10(3):258-75.

Mowry BJ, Gratten J. The emerging spectrum of allelic variation in

schizophrenia: current evidence and strategies for the identification and

90

functional characterization of common and rare variants. Mol Psychiatry. 2013;

18(1):38-52.

Moya PR, Dodman NH, Timpano KR, Rubenstein LM, Rana Z, Fried RL, et al.

Rare missense neuronal cadherin gene (CDH2) variants in specific obsessive-

compulsive disorder and Tourette disorder phenotypes. Eur J Hum Genet.

2013.

Nestadt G, Lan T, Samuels J, Riddle M, Bienvenu OJ, Liang KY, et al. Complex

segregation analysis provides compelling evidence for a major gene underlying

obsessive-compulsive disorder and for heterogeneity by sex. Am J Hum Genet.

2000; 67(6):1611-6.

Nestadt G, Samuels J, Riddle M, Bienvenu OJ, Liang KY, LaBuda M, et al. A

family study of obsessive-compulsive disorder. Arch Gen Psychiatry. 2000;

57(4):358-63.

Nestadt G, Wang Y, Grados MA, Riddle MA, Greenberg BD, Knowles JA, et al.

Homeobox genes in obsessive-compulsive disorder. Am J Med Genet B


Ng SB, Turner EH, Robertson PD, Flygare SD, Bigham AW, Lee C, et al.

Targeted capture and massively parallel sequencing of 12 human exomes.

Nature. 2009; 461(7261):272-6.

O'Roak BJ, Deriziotis P, Lee C, Vives L, Schwartz JJ, Girirajan S, et al. Exome

sequencing in sporadic autism spectrum disorders identifies severe de novo

mutations. Nat Genet. 2011; 43(6):585-9.

O'Roak BJ, Vives L, Girirajan S, Karakoc E, Krumm N, Coe BP, et al. Sporadic

autism exomes reveal a highly interconnected protein network of de novo

mutations. Nature. 2012; 485(7397):246-50.

Pauls DL, Alsobrook JP, Goodman W, Rasmussen S, Leckman JF. A family

study of obsessive-compulsive disorder. Am J Psychiatry. 1995; 152(1):76-84.

Pauls DL. The genetics of obsessive compulsive disorder and Gilles de la

Tourette's syndrome. Psychiatr Clin North Am. 1992; 15(4):759-66.

91

Pauls DL. The genetics of obsessive compulsive disorder: a review of the

evidence. Am J Med Genet C Semin Med Genet. 2008; 148C(2):133-9.

Pauls DL. The genetics of obsessive-compulsive disorder: a review. Dialogues

Clin Neurosci. 2010; 12(2):149-63.

Pinto D, Pagnamenta AT, Klei L, Anney R, Merico D, Regan R, et al. Functional

impact of global rare copy number variation in autism spectrum disorders.

Nature. 2010; 466(7304):368-72.

Pittenger C, Bloch MH, Williams K. Glutamate abnormalities in obsessive

compulsive disorder: neurobiology, pathophysiology, and treatment. Pharmacol

Ther. 2011; 132(3):314-32.

Rasmussen SA, Eisen JL. Epidemiology of obsessive compulsive disorder. J

Clin Psychiatry. 1990; 51 Suppl:10-3; discussion 4.

Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. Global

variation in copy number in the human genome. Nature. 2006; 444(7118):444-

54.

Roach JC, Glusman G, Smit AF, Huff CD, Hubley R, Shannon PT, et al.

Analysis of genetic inheritance in a family quartet by whole-genome

sequencing. Science. 2010; 328(5978):636-9.

Ross J, Badner J, Garrido H, Sheppard B, Chavira DA, Grados M, et al.

Genomewide linkage analysis in Costa Rican families implicates chromosome

15q14 as a candidate region for OCD. Hum Genet. 2011; 130(6):795-805.

Rotge JY, Aouizerate B, Tignol J, Bioulac B, Burbaud P, Guehl D. The

glutamate-based genetic immune hypothesis in obsessive-compulsive disorder.

An integrative approach from genes to symptoms. Neuroscience. 2010;

165(2):408-17.

Ruscio A, Stein D, Chiu W, Kessler R. The epidemiology of obsessive-

compulsive disorder in the National Comorbidity Survey Replication. Mol

Psychiatry. 2010; 15(1):53-63.

Saito R, Smoot ME, Ono K, Ruscheinski J, Wang PL, Lotia S, et al. A travel

guide to Cytoscape plugins. Nat Methods. 2012; 9(11):1069-76.

92

Samuels J, Shugart YY, Grados MA, Willour VL, Bienvenu OJ, Greenberg BD,

et al. Significant linkage to compulsive hoarding on chromosome 14 in families

with obsessive-compulsive disorder: results from the OCD Collaborative

Genetics Study. Am J Psychiatry. 2007; 164(3):493-9.

Sanders SJ, Ercan-Sencicek AG, Hus V, Luo R, Murtha MT, Moreno-De-Luca

D, et al. Multiple recurrent de novo CNVs, including duplications of the 7q11.23

Williams syndrome region, are strongly associated with autism. Neuron. 2011;

70(5):863-85.

Sanders SJ, Murtha MT, Gupta AR, Murdoch JD, Raubeson MJ, Willsey AJ, et

al. De novo mutations revealed by whole-exome sequencing are strongly

associated with autism. Nature. 2012; 485(7397):237-41.

Schmidt MI, Duncan BB, Azevedo e Silva G, Menezes AM, Monteiro CA,

Barreto SM, et al. Chronic non-communicable diseases in Brazil: burden and

current challenges. Lancet. 2011; 377(9781):1949-61.

Schuurs-Hoeijmakers JH, Oh EC, Vissers LE, Swinkels ME, Gilissen C,

Willemsen MA, et al. Recurrent de novo mutations in PACS1 cause defective

cranial-neural-crest migration and define a recognizable intellectual-disability

syndrome. Am J Hum Genet. 2012; 91(6):1122-7.

Sebat J, Lakshmi B, Malhotra D, Troge J, Lese-Martin C, Walsh T, et al. Strong

association of de novo copy number mutations with autism. Science. 2007;

316(5823):445-9.

Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, et al. Large-scale

copy number polymorphism in the human genome. Science. 2004;

305(5683):525-8.

Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, et al. Large-scale

copy number polymorphism in the human genome. Science. 2004;

305(5683):525-8.

Sebat J, Levy DL, McCarthy SE. Rare structural variants in schizophrenia: one

disorder, multiple mutations; one mutation, multiple disorders. Trends Genet.

2009; 25(12):528-35.

93

Sebat J. Major changes in our DNA lead to major changes in our thinking. Nat

Genet. 2007; 39(7 Suppl):S3-5.

Shugart YY, Samuels J, Willour VL, Grados MA, Greenberg BD, Knowles JA, et

al. Genomewide linkage scan for obsessive-compulsive disorder: evidence for

susceptibility loci on chromosomes 3q, 7p, 1q, 15q, and 6q. Mol Psychiatry.

2006; 11(8):763-70.

State MW, Levitt P. The conundrums of understanding genetic risks for autism

spectrum disorders. Nat Neurosci. 2011; 14(12):1499-506.

State MW, Šestan N. Neuroscience. The emerging biology of autism spectrum

disorders. Science. 2012; 337(6100):1301-3.

State MW. The genetics of child psychiatric disorders: focus on autism and

Tourette syndrome. Neuron. 2010; 68(2):254-69.

Stefansson H, Rujescu D, Cichon S, Pietiläinen OP, Ingason A, Steinberg S, et

al. Large recurrent microdeletions associated with schizophrenia. Nature. 2008;

455(7210):232-6.

Stewart SE, Fagerness JA, Platko J, Smoller JW, Scharf JM, Illmann C, et al.

Association of the SLC1A1 glutamate transporter gene and obsessive-

compulsive disorder. Am J Med Genet B Neuropsychiatr Genet. 2007;

144B(8):1027-33.

Stewart SE, Mayerfeld C, Arnold PD, Crane JR, O'Dushlaine C, Fagerness JA,

et al. Meta-analysis of association between obsessive-compulsive disorder and

the 3' region of neuronal glutamate transporter gene SLC1A1. Am J Med Genet

B Neuropsychiatr Genet. 2013.

Stewart SE, Platko J, Fagerness J, Birns J, Jenike E, Smoller JW, et al. A

genetic family-based association study of OLIG2 in obsessive-compulsive

disorder. Arch Gen Psychiatry. 2007; 64(2):209-14.

Stewart SE, Platko J, Fagerness J, Birns J, Jenike E, Smoller JW, et al. A

genetic family-based association study of OLIG2 in obsessive-compulsive

disorder. Arch Gen Psychiatry. 2007; 64(2):209-14.

94

Subramanian G, Adams MD, Venter JC, Broder S. Implications of the human

genome for understanding human biology and medicine. JAMA. 2001;

286(18):2296-307.

Taylor S. Molecular genetics of obsessive-compulsive disorder: a

comprehensive meta-analysis of genetic association studies. Mol Psychiatry.

2012.

Tennessen JA, Bigham AW, O'Connor TD, Fu W, Kenny EE, Gravel S, et al.

Evolution and functional impact of rare coding variation from deep sequencing

of human exomes. Science. 2012; 337(6090):64-9.

Tetsuka S, Morita M, Iida A, Uehara R, Ikegawa S, Nakano I. ZNF512B gene is

a prognostic factor in patients with amyotrophic lateral sclerosis. J Neurol Sci.

2013; 324(1-2):163-6.

Ting JT, Feng G. Glutamatergic Synaptic Dysfunction and Obsessive-

Compulsive Disorder. Curr Chem Genomics. 2008; 2:62-75.

Urraca N, Camarena B, Gómez-Caudillo L, Esmer MC, Nicolini H. Mu opioid

receptor gene as a candidate for the study of obsessive compulsive disorder

with and without tics. Am J Med Genet B Neuropsychiatr Genet. 2004;

127B(1):94-6.

van Grootheest DS, Cath DC, Beekman AT, Boomsma DI. Twin studies on

obsessive-compulsive disorder: a review. Twin Res Hum Genet. 2005;

8(5):450-8.

Veenstra-VanderWeele J, Xu T, Ruggiero AM, Anderson LR, Jones ST, Himle

JA, et al. Functional studies and rare variant screening of SLC1A1/EAAC1 in

males with obsessive-compulsive disorder. Psychiatr Genet. 2012; 22(5):256-

60.

Vidal M. Interactome modeling. FEBS Lett. 2005; 579(8):1834-8.

Voyiaziakis E, Evgrafov O, Li D, Yoon HJ, Tabares P, Samuels J, et al.

Association of SLC6A4 variants with obsessive-compulsive disorder in a large

multicenter US family study. Mol Psychiatry. 2011; 16(1):108-20.

95

Walsh T, McClellan JM, McCarthy SE, Addington AM, Pierce SB, Cooper GM,

et al. Rare structural variants disrupt multiple genes in neurodevelopmental

pathways in schizophrenia. Science. 2008; 320(5875):539-43.

Welch JM, Lu J, Rodriguiz RM, Trotta NC, Peca J, Ding JD, et al. Cortico-

striatal synaptic defects and OCD-like behaviours in Sapap3-mutant mice.

Nature. 2007; 448(7156):894-900.

Wendland JR, Moya PR, Timpano KR, Anavitarte AP, Kruse MR, Wheaton MG,

et al. A haplotype containing quantitative trait loci for SLC1A1 gene expression

and its association with obsessive-compulsive disorder. Arch Gen Psychiatry.

2009; 66(4):408-16.

Williams NM, Zaharieva I, Martin A, Langley K, Mantripragada K, Fossdal R, et

al. Rare chromosomal deletions and duplications in attention-deficit

hyperactivity disorder: a genome-wide analysis. Lancet. 2010; 376(9750):1401-

8.

Willour VL, Yao Shugart Y, Samuels J, Grados M, Cullen B, Bienvenu OJ, et al.

Replication study supports evidence for linkage to 9p24 in obsessive-

compulsive disorder. Am J Hum Genet. 2004; 75(3):508-13.

Wu K, Hanna GL, Easter P, Kennedy JL, Rosenberg DR, Arnold PD. Glutamate

system genes and brain volume alterations in pediatric obsessive-compulsive

disorder: a preliminary study. Psychiatry Res. 2013; 211(3):214-20.

Wu K, Hanna GL, Rosenberg DR, Arnold PD. The role of glutamate signaling in

the pathogenesis and treatment of obsessive-compulsive disorder. Pharmacol

Biochem Behav. 2012; 100(4):726-35.

Xu B, Roos JL, Dexheimer P, Boone B, Plummer B, Levy S, et al. Exome

sequencing supports a de novo mutational paradigm for schizophrenia. Nat

Genet. 2011; 43(9):864-8.

Xu B, Woodroffe A, Rodriguez-Murillo L, Roos JL, van Rensburg EJ, Abecasis

GR, et al. Elucidating the genetic architecture of familial schizophrenia using

rare copy number variant and linkage scans. Proc Natl Acad Sci U S A. 2009;

106(39):16746-51.

96

Yauk CL, Lucas Argueso J, Auerbach SS, Awadalla P, Davis SR, Demarini DM,

et al. Harnessing genomics to identify environmental determinants of heritable

disease. Mutat Res. 2013; 752(1):6-9.

Yu TW, Chahrour MH, Coulter ME, Jiralerspong S, Okamura-Ikeda K, Ataman

B, et al. Using Whole-Exome Sequencing to Identify Inherited Causes of

Autism. Neuron. 2013; 77(2):259-73.

Zai G, Arnold P, Burroughs E, Barr CL, Richter MA, Kennedy JL. Evidence for

the gamma-amino-butyric acid type B receptor 1 (GABBR1) gene as a

susceptibility factor in obsessive-compulsive disorder. Am J Med Genet B


Zai G, Bezchlibnyk YB, Richter MA, Arnold P, Burroughs E, Barr CL, et al.

Myelin oligodendrocyte glycoprotein (MOG) gene is associated with obsessive-

compulsive disorder. Am J Med Genet B Neuropsychiatr Genet. 2004;

129B(1):64-8.

Zhu X, Gerstein M, Snyder M. Getting connected: analysis and principles of

biological networks. Genes Dev. 2007; 21(9):1010-24.

Züchner S, Wendland JR, Ashley-Koch AE, Collins AL, Tran-Viet KN, Quinn K,

et al. Multiple rare SAPAP3 missense variants in trichotillomania and OCD. Mol

Psychiatry. 2009; 14(1):6-9.

Zuk O, Hechter E, Sunyaev SR, Lander ES. The mystery of missing heritability:

Genetic interactions create phantom heritability. Proc Natl Acad Sci U S A.

2012; 109(4):1193-8.

ANEXOS Todas estas análises são preliminares e se referem as variações de novo codificantes. Estas variações não foram validadas experimentalmente. Porém, visto que 90,9% das variações de novo não sinônimas previstas foram validadas, acredita-se que estas análises sejam robustas o suficiente para serem relatadas neste estudo e serem discustidas em conjunto com as outras análises apresentadas ao longo da tese

Anexo A: Sumário das variações codificantes encontradas em probandos com Transtorno Obsessivo-Compulsivo, a partir do sequenciamento em larga escala de última geração

Indivíduo Cr

Posição

(hg19) Gene

Expresso Alelo

Ref. Zigosidade

Alelo mutante1

Mutação

Aminoácido

substituição

Phred score

(0-40)

Grantham

Score RS do SNV Cérebro Sinapse Prob Pai Mãe

TOC129101 2 219894325 CCDC108 Sim Não C Het 23 / 43 0 / 44 0 / 52 Missense E484K 28 56 0 TOC129101 4 102993556 BANK1 Sim Não A Het 49 / 102 0 / 64 0 / 62 Missense K766M 30 95 0 TOC129101 5 16783451 MYO10 Sim Não C Het 48 / 98 0 / 66 0 / 66 Missense E199K 28 56 0 TOC129101 17 21318741 KCNJ12 Sim Sim C Het 13 / 60 0 / 52 2 / 49 Silenciosa N29N 34 0 rs75113504

TOC139801 1 89655829 GBP4 Sim Não C Het 27 / 57 0 / 52 0 / 62 Silenciosa T363T 36 0 0 TOC139801 1 207755290 CR1 Não Não T Het 39 / 92 0 / 72 0 / 72 Missense S1748R 37 110 0 TOC139801 2 223423326 SGPP2 Sim Não C Het 39 / 66 0 / 54 0 / 51 Silenciosa P303P 26 0 rs183770597 TOC144601 2 220402768 ACCN4 Sim Não G Het 35 / 72 1 / 52 0 / 42 Silenciosa X667X 28 0 0 TOC144601 22 24224659 SLC2A11 Sim Não C Het 9 / 16 0 / 5 0 / 8 Silenciosa L240L 29 0 rs9612499 TOC175901 16 11016048 CIITA Sim Não C Het 29 / 63 0 / 52 0 / 49 Silenciosa D1058D 36 0 rs148475711 TOC175901 16 71807129 AP1G1 Sim Sim T Het 27 / 52 0 / 51 0 / 55 Missense K155E 25 56 0 TOC018701 19 3831449 ZFR2 Desc Não G Het 9 / 16 0 / 12 0 / 7 Missense P235L 22 98 rs2240232 TOC003301 17 72246085 TTYH2 Sim Não C Het 23 / 50 0 / 27 0 / 44 Missense T314I 30 89 0 TOC016301 15 75891017 SNUPN Sim Não A Het 19 / 39 0 / 57 0 / 51 Missense D255E 27 45 0 TOC018901 3 10380029 ATP2B2 Sim Sim A Het 15 / 43 0 / 34 0 / 16 Missense I1084T 31 89 0 TOC018901 3 180703745 DNAJC19 Sim Sim T Het 60 / 123 0 / 75 0 / 48 Silenciosa R83R 30 0 0 TOC018901 11 76751663 B3GNT6 Sim Não G Het 9 / 22 0 / 18 1 / 9 Silenciosa V356V 31 0 rs144466809 TOC018901 5 79030338 CMYA5 Sim Não A Het 15/0 0/21 0/8 Missense D1917G 29 94 0 TOC181401 10 28971325 BAMBI Sim Não G Het 25 / 55 0 / 26 0 / 35 Missense V260I 36 29 0

Cr, cromossomo; Het, heterozigoto 1Leitura da base mutante

2 Base mutante/Total de leitura das bases (cover deep). O Score Phred é um escore relacionado com a probabilidade de erro de cada base identificada. Um escore

igual ou maior que 30 é considerado de probabilidade de erro de 1/1000 erros na identificação da base (nucleotídeo). Os valores deste escore para as variações que foram validadas são muito próximos de 30, apesar de o limiar utilizado neste estudo ter sido um escore ≥15, segundo análises da qualidade do sequenciamento e da porcentagem da taxa de erros de identificação de bases (Sanders, Murtha et al., 2012). O Grantham Score é um escore que identifica quanto uma modificação em determinada região do exon é deletéria para a função da proteína, isto é, se a variação ocorrer em sítios da proteína considerados conservados ao longo da evolução, ela é considerada deletéria. Escores acima de 85 são considerados muito deletérios para o funcionamento da proteína (O'roak, Vives et al., 2012).

Anexo B: Rede de interação proteína-proteína (IPP) de proteínas (genes) com mutações de novo (DNM) codificantes.

Treze genes da lista inicial com variações de novo codificantes encontradas em probandos com TOC estão conectados na rede IPP. As proteínas com um círculo verde são os genes da lista inicial. Como usamos o interatoma para fazer a rede, os símbolos representados nas redes são relacionados a proteínas. Estas proteínas são expressas pelos genes de interesse neste estudo. Os nós da rede são proteínas são mostradas na rede por círculos com o nome de cada proteína de referência. As linhas da rede são também chamadas de arestas, e são elas que mostram a interação entre os nós (proteínas) da rede. As proteínas (genes) em rosa são as consideradas corretoras (brokers), isto é, aquelas com alto grau de conectores. Estas conexões são feitas entre proteínas que não seriam conectadas se não existisse a broker. Já as pontes (bridges), que são as proteínas consideradas pontes, conectam agrupamentos de nós bem conectados. Elas são representadas pela cor azul.

Anexo C: Lista de genes (proteínas) como variações de novo (DNM) codificantes ordenados pelo algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (DADA)

Genes Ordenação Interação Coeficiente de agrupamento

Componente da rede

Gene corretor (proteína broker)

KCNJ12 1 16 0,19167 sim sim

WWP1 2 26 0,01231 sim sim

GANAB 3 26 0,04923 sim sim

CMYA5 4 5 0,01293 sim não

CR1 5 13 0,01282 sim não

MYO10 6 8 0 sim não

AP1G1 7 26 0,02154 sim sim

ERCC6 8 11 0,14545 sim não

SNUPN 9 8 0 sim não

CIITA 10 12 0,09091 sim não

BAMBI 11 1 0 sim não

CR1 12 13 0,01282 sim sim

Foram ordenados 12 genes da lista inicial. Um deles (BANK1) não foi associado com os genes candidatos para TOC.

Anexo D: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com variações de novo (DNM) codificantes

Legenda: Lista inicial de genes (proteínas) com variações de novo codificantes, em vermelho, e genes (proteínas) com SNPs comuns associados com o risco para transtorno obsessivo-compulsivo (TOC) em verde. As proteínas consideradas corretores (brokers estão em rosa. As pontes (bridges), cor azul.

Anexo E: Ciclo do aminoácido gama Glutamil

Ciclo do aminoácido gama Glutamil, gerado pelo IPA (Ingenuity Pathway Analysis program). Esta via biológica foi significativa para os genes com SNVs raras (frequência de ocorrência menor ou igual a 0,5%).

Download - VARIAÇÕES RARAS NO GENOMA DE PACIENTES COM … · AGRADECIMENTOS Agradeço ao Euripedes Constantino Miguel, meu orientador, que sempre confiou neste trabalho e me deu as melhores

Top Related