CAROLINA CAPPI
VARIAÇÕES RARAS NO GENOMA DE PACIENTES
COM TRANSTORNO OBSESSIVO-COMPULSIVO
Tese apresentada à Faculdade de Medicina da Universidade de São Paulo para a obtenção de título de Doutor em Ciências
Programa de Psiquiatria
Orientador: Prof. Dr. Euripedes Constantino Miguel
São Paulo
2013
Dados Internacionais de Catalogação na Publicação (CIP)
Preparada pela Biblioteca da Faculdade de Medicina da Universidade de São Paulo
©reprodução autorizada pelo autor
Cappi, Carolina Variações raras no genoma de pacientes com transtorno obsessivo-compulsivo / Carolina Cappi. -- São Paulo, 2013.
Tese(doutorado)--Faculdade de Medicina da Universidade de São Paulo. Programa de Psiquiatria.
Orientador: Euripedes Constantino Miguel Filho. Descritores: 1.Sequenciamento de nucleotídeos em larga escala 2.Exoma 3.Análise
mutacional de DNA 4.Transtorno obsessivo-compulsivo/genética
USP/FM/DBD-167/13
Dedico este trabalho a Maria Thereza Cappi, minha amada mãe,
um exemplo de mulher na concretização de um sonho profissional.
AGRADECIMENTOS
Agradeço ao Euripedes Constantino Miguel, meu orientador, que sempre
confiou neste trabalho e me deu as melhores possibilidades de realizá-lo.
Foi duro muitas vezes em suas colocações, mas isto ajudou no processo de
amadurecimento científico e pessoal.
A Helena Brentani, que me apresentou o mundo apaixonante das
genômicas, por tantas conversas, discussões e crescimento.
À amiga Ana G. Hounie, que esteve sempre presente fazendo revisões,
principalmente no trabalho árduo de revisão final da tese. Muito Obrigada!
À amiga Juliana B. Diniz, que me acompanhou na elaboração do projeto,
revisão da qualificação e artigo final da tese.
A Roseli Gedanke Shavitt, coordenadora do PROTOC, pela confiança e
apoio, e pela deliciosa tarde de trabalho no artigo.
À amiga Priscila Chacon, que me apresentou à equipe do PROTOC.
Aos amigos queridos Cecília Toledo, Daniel Costa, Marcelo Batistuzzo e
Marcelo Hoexter, por tantas conversas sobre este trabalho e pela amizade.
Aos queridos do PROTOC: Alice De Mathis, Sonia Borcato, Marinês
Joaquim, Antônio Carlos Lopes, Nil Morais, Aline Sampaio, Debora, Vivi
Neri, Daniel Mariani e Tiaya Lourenço. Direta ou indiretamente, há um pouco
de todos neste trabalho.
A meu pai, meus dois irmãos e às amigas do peito Maria, Marti, Mari, Giber,
Marina e Carol Rosa, pelo apoio e amor durante todo este período.
A Idalina Shimoda, Carolina Dangelino, Juliana Juk e Elke, que facilitaram a
parte burocrática de todo este percurso.
A Eliza, Isabel e Luciana, da Pós-Graduação do Instituto de Psiquiatria, pela
orientação com as obrigações burocráticas.
Ao Prof. Dr. Mathew W. State, que sugeriu este trabalho; ao Tom
Fernandez, pela orientação do estágio na Yale, ao Professor Ivan Araújo
pelos ensinamentos de modelo matemático e ao Prof. Dr. David Pauls, pela
leitura detalhada do artigo, pelo entusiasmo com o trabalho e pelos
ensinamentos - um verdadeiro mestre.
A Iolanda Moura da LETRAGUIA pela belíssima revisão de português.
Ao Instituto de Psiquiatria da FMUSP, por oferecer toda a estrutura para
realização do meu trabalho.
Aos pacientes e familiares, que gentilmente cederam o material genético e
dados de sua vida para este trabalho.
Ao Instituo Nacional de Ciência e Tecnologia de Psiquiatria do
Desenvolvimento para Infância e Adolescência (INPD), financiado pelo
CNPq e pela FAPESP, pelo apoio a este trabalho.
Por fim, à Fundação de Amparo à Pesquisa do Estado de São Paulo
(FAPESP), pelo financiamento de parte desta tese e do meu estágio na
Universidade da YALE (processo número: 2008/11537-7).
NORMALIZAÇÃO ADOTADA
Esta tese está de acordo com as seguintes normas, em vigor no momento
desta publicação: Referências: adaptado de International Committee of
Medical Journals Editors (Vancouver).
Universidade de São Paulo. Faculdade de Medicina. Serviço de Biblioteca e
Documentação. Guia de apresentação de dissertações, teses e
monografias. Elaborado por Anneliese Carneiro da Cunha, Maria Julia de A.
L. Freddi, Maria F. Crestana, Marinalva de Souza Aragão, Suely Campos
Cardoso, Valéria Vilhena. 2ª ed. São Paulo: Serviço de Biblioteca e
Documentação; 2005.
Abreviaturas dos títulos dos periódicos de acordo com List of Journals
Indexed in Index Medicus.
SUMÁRIO
LISTA DE ABREVIATURAS
GLOSSÁRIO
LISTA DE TABELAS
LISTA DE FIGURAS
1. INTRODUÇÃO 1
1.1.Objetivos 6
1.2. Hipóteses 6
2. REVISÃO DA LITERATURA 8
2.1. Transtorno Obsessivo-Compulsivo 8
2.2. Genética do Transtorno Obsessivo-Compulsivo 9
2.3. Estudos de genética molecular 11
2.4. Estudo de associação do genoma inteiro (GWAS) 16
2.5. Variações raras 19
2.6. Estudos de exon do genoma inteiro, para a busca de variações de novo 25
3. MATERIAL E MÉTODOS 28
3.1. Aspectos Éticos 28
3.2. Amostra 29
3.3. Instrumentos de Avaliação 30
3.4. Grupo de familiares 31
3.5. Avaliação laboratorial e Bioinformática 31
3.6. Sequenciamento de exons do genoma inteiro 32
3.7. Redes de interação proteína-proteína (IPP) das variações de novo (DNM) 41
3.8. Priorização dos genes com variações de novo (DNM) relacionados a genes candidatos de TOC 46
3.9. Processos biológicos dos genes com variações raras hereditárias e variações novas hereditárias 47
4. RESULTADOS 48
4.1. Característica da amostra 48
4.2. Resultados do Sequenciamento 51
4.3. Identificação das Variações de novo (DNM) 52
4.4. Redes de interação proteína-proteína (IPP) das variações de novo (DNM) 55
4.5. Programa DADA – priorização de genes candidatos 59
4.6. Análise de processos e vias biológicas 62
4.7. Processos biológicos de genes da rede IPP das variações de novo não sinônimas 62
4.8. Porcessos biológicos das variações raras herdadas e variações novas herdadas 63
5. DISCUSSÃO 66
5.1. Caraterísticas clínicas dos probandos e variações de novo 67
5.2. rede de Interação proteína-proteína 68
5.3. Processos biológicos 77
5.4. Limitações 79
6. CONCLUSÃO 80
7. REFERÊNCIAS BIBLIOGRÁFICAS 81
ANEXOS
Anexo A: Sumário das variações codificantes encontradas em probandos com Transtorno Obsessivo-Compulsivo, a partir do sequenciamento em larga escala de última geração
Anexo B: Rede de interação proteína-proteína (IPP) de proteínas (genes) com mutações de novo (DNM) codificantes.
Anexo C: Lista de genes (proteínas) como variações de novo (DNM) codificantes ordenados pelo algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (DADA)
Anexo D: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com variações de novo (DNM) codificantes
Anexo E: Ciclo do aminoácido gama Glutamil
LISTA DE ABREVIATURAS
APA: Apostila de Primeiro Atendimento
BECK-A: Inventário de Ansiedade de Beck
BECK-D: Inventário de Depressão de Beck
C-TOC: Consórcio Brasileiro de Pesquisa sobre o Transtorno Obsessivo-Compulsivo
DSM-IV: Manual Diagnóstico e Estatístico da Associação Psiquiátrica da América
DY-BOCS: Escala Dimensional da Yale Brown
FMUSP: Faculdade de Medicina da Universidade de São Paulo
IPq: Instituto de Psiquiatria
K-SADS: Kiddie-Schizophenia and Affective Disorders
OCD: Obsessivo-Compulsivo disorder
PROTOC: Programa Transtornos do Espectro Obsessivo-Compulsivo do INPD: Instituto de Psiquiatria do Hospital da Clínicas da Faculdade de Medicina da Universidade de São Paulo.Instituto Nacional de Ciências e Tecnologia de Psiquiatria do Desenvolvimento para Crianças e Adolescentes
DSM-IV: Manual diagnóstico e estatístico de transtornos mentais
SCID: Entrevista Clínica Estruturada para o DSM-IV - Transtornos do Eixo I
ST: Síndrome de Tourette
TAG: Transtorno de Ansiedade Generalizada
TDAH: Transtorno de Déficit de Atenção e Hiperatividade
TEPT: Transtorno de Estresse Pós-Traumático
TOC: Transtorno Obsessivo-Compulsivo
Y-BOCS: Escala Yale Brown de Sintomas Obsessivo-Compulsivos
YGTSS: Escala de Avaliação Global de Tiques desenvolvida pelo Yale Child Study Center
GLOSSÁRIO
DNM: mutação ou variação de novo, isto é, esporádica.
SNVs: variações de uma troca de base (nucleotídeo); termo usado para variações de uma troca de base observadas a partir do sequenciamento de larga escala.
MAF: frequência do menor alelo.
Variações raras: consideradas variações com uma ocorrência menor ou igual a 1%; neste estudo, definimos como raras aquelas variações com frequência de ocorrência menor ou igual a 0,5%.
Variações comuns: variações com frequência de ocorrência entre 1% e 5% ou maior.
IPP: rede de interação proteína-proteína.
DADA: algoritmo de priorização de genes.
Códon: uma unidade formada por uma sequência de três nucleotídeos. Cada códon codifica um aminoácido. O códon muitas vezes é denominado código genético, que é o conjunto de regras pelo qual a informação dentro do material genético (DNA ou RNA mensageiro) é traduzida em um proteína (uma sequência de aminoácidos).
Variação não sinônina: variação/mutação que ocorre em regiões codificantes do genoma humano e que afeta a produção da proteína; as variações não sinônimas podem ser missense, que diminuem a atividade da proteína, ou nonsense (sem sentido), que fazem com que o códon não seja traduzido (stop codon).
Variação Missense: mutação pontual no DNA, a qual um nucleotídeo é trocado. O resultado é um códon que codifica um aminoácido diferente do normal. Uma das maiores consequências desta variação é que um aminoácido é substituído por outro. Usamos aqui o termo missense para reportar uma variação que altera a função da proteína.
Variação Sem sentido (nonsense): mutação pontual na sequência de DNA que resulta em um prematuro códon de finalização. Desta forma, finaliza a tradução do RNA mensageiro para a formação da proteína. O produto é uma proteína não funcional.
GWAS: estudo de associação do genoma inteiro.
Medida de herdabilidade: é a medida de quanto a variância do fenótipo é explicada pela variância genética.
CNV: variação no número de cópias.
SNP: polimorfismo de base única, geralmente usado para representar uma variação comum.
Exoma: conjunto de exons do genoma humano.
Probando: caso índice.
CVCD: comum variação - doença comum (common variaiton - common disease) hipótese que pressupõe que as doenças comuns são associadas com variações comuns.
RVCD: variação rara – doença comum (rare variation – common disease) hipótese que pressupõe que as doenças comuns são associadas com variações raras.
Doença comum: doenças poligênicas e multifatoriais (complexas).
aCGH: técnica de genômica comparativa baseada em chips de DNA, utilizada nos estudos de CNVs.
Interatoma: banco de dados que apresentam a interação física entre as proteínas.
nós: proteínas.
Linhas da rede: interação entre as proteínas; cada linha representa uma interação.
Hubs: proteínas com muitas linhas, isto é, com muitos nós adjacentes a ela.
Brokers: nós com muitos nós adjacentes, que não seriam conectados à rede se o broker não existisse.
Bridges: nós que conectam módulos de nós bem conectados na rede.
LISTA DE TABELAS
Tabela 1: Genes avaliados em estudos de associação com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 15
Tabela 2: Agrupamento dos transtornos psiquiátricos segundo definições mais abrangentes ........................................................................................................... 49
Tabela 3: Características demográficas e clínicas dos probandos com transtorno obsessivo-compulsivo (TOC) ................................................................................. 50
Tabela 4: Resumo dos dados de sequenciamento dos exons dos 17 trios com TOC (n=51 amostras) ..................................................................................................... 51
Tabela 5: Sumário das variações de novo (DNM) encontradas em probandos com transtorno obsessivo-compulsivo (TOC), a partir do sequenciamento em larga escala de última geração, e validadas pelo método sequenciamento Sanger ........ 54
Tabela 6: Lista de nove genes (proteínas) com mutações de novo (DNM), ordenados pelo algoritmo de grau informativo para redes com base na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA ...................................................................... 60
Tabela 7: Análise dos processos biológicos dos 129 genes que integram a rede de interação proteína-proteína IPP), mutações de novo .............................................. 63
Tabela 8: Análise dos processos biológicos dos 27 genes com variações raras (frequência de ocorrência 0,5%) em probando com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 64
Tabela 9: Análise dos processos biológicos dos 470 genes com variações de troca de um nucleotídeo (SNVs) novas, em probandos com transtorno obsessivo-compulsivo (TOC) .................................................................................................. 64
LISTA DE FIGURAS
Figura 1: Etapas do sequenciamento, utilizando a tecnologia de sequenciamento de alta performance (high-performance sequencing - HiSeq) da empresa Illumina. ............................................................................................................................... 37
Figura 2: Exemplo de planilha de análise métrica da rede (interação proteína-proteína) ................................................................................................................. 56
Figura 3: Representação das melhores proteínas corretoras (brokers) e proteínas ponte (bridges), considerando-se um percentil de 95% da distribuição dos dados . 57
Figura 4: Rede de interação proteína-proteína (IPP) ............................................. 58
Figura 5: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com lista de proteínas com mutações de novo (DNM) não sinônimas. ....................................................................................................... 61
RESUMO
Cappi, C. Variações raras no genoma de pacientes com transtorno
obsessivo-compulsivo [tese]. São Paulo: Faculdade de Medicina,
Universidade de São Paulo: 2013.
Estudos de variações genéticas raras têm caracterizado com sucesso regiões do genoma e processos biológicos envolvidos no risco de desenvolver transtornos psiquiátricos. Dentro deste contexto, o sequenciamento de nucleotídeos em larga escala de exons do genoma inteiro para a observação de variações raras, conhecidas em inglês como single-nucleotide variation (SNV), e mutações espontâneas (“de novo” – DNM) tornou-se uma abordagem essencial na descoberta de novos genes de risco para transtornos psiquiátricos. Até o presente momento, nenhum estudo de SNV e variações de novo com sequenciamento de todas as regiões codificantes foi relatado no transtorno obsessivo-compulsivo (TOC). No presente estudo, este sequenciamento foi feito em 20 casos esporádicos de TOC e seus pais, para investigar a presença de variações raras de novo e herdadas nos probandos. A partir da observação de que os produtos de genes (proteínas) associados a uma mesma doença interagem em uma rede de interação proteína-proteína (IPP), foi feita uma rede de IPP com os genes (proteína) que apresentaram variações de novo não sinônimas, para observar dentre estes genes o de maior importância na rede de IPP. A fim de investigar a relevância desta rede, foi aplicado um algoritmo de grau informativo para redes, baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) que ordenou os genes com variações de novo não sinônimas, embasado na associação destes com uma lista de genes envolvidos em conferir risco para TOC provenientes de uma meta-análise de genética em TOC. Além disso, foi feita uma análise de processos biológicos envolvidos com os genes que apresentavam variações raras herdadas. No total, 10 variações de novo não sinônimas (9 missense e 1 nonsense) foram validadas utilizando-se o sequenciamento Sanger. Os genes WWP1, AP1G1 e CR1, advindos da lista inicial de genes com variações não sinônimas, foram altamente conectados na rede de IPP. O gene WWP1 foi o gene com maior pontuação no ranking de resultados do algoritmo DADA. Os resultados de processos biológicos envolvendo estes genes sugerem o envolvimento do sistema imunológico em TOC. Além disso, todos os genes com variações de novo não sinônimas, exceto um, são genes com expressão no cérebro e envolvidos com sinaptogênese e morte neuronal.
Descritores: 1.Sequenciamento de nucleotídeos em larga escala 2.Exoma 3. 4.Transtorno obsessivo-compulsivo/genética
SUMMARY
Cappi, C. Rare variants in obsessive-compulsive disorder [thesis]. São
Paulo: Faculdade de Medicina, Universidade de São Paulo: 2013.
Studies of rare variations have been used successfully to characterize regions of the genome and molecular pathways conferring risk for developmental neuropsychiatric disorders. Within this context, whole-exome sequencing for rare single-nucleotide variation (SNV) and de novo mutation (DNM) mutation has become an essential approach for gene discovery in psychiatric disease. To date, few if any studies of SNVs and de novo variation using this technology have been reported for obsessive-compulsive disorder (OCD). In the present study, all coding regions of the genome were sequenced for 20 sporadic probands with OCD and their parents, to investigate de novo and inherited rare variations in probands. Subsequently, based on the observation that the products of genes associated with similar diseases are likely to interact with each other heavily in a network of protein-protein interactions (PPIs), a PPI network was generated, with the genes (protein) with non-synonymous de novo variation, to observe the most important genes in the network. To investigate the relevance of this network to OCD further, degree-aware disease gene prioritization (DADA) was applied, to rank all genes with non-synonymous de novo variation based on their relatedness to a set of genes previously identified in an OCD genetics meta-analysis. In addition, pathway analyses using de novo and inherited variation were completed. Altogether, 10 non-synonymous de novo variations (9 missense, 1 nonsense) were successfully validated by Sanger sequencing. We found that the genes WWP1, AP1G1 and CR1, from the initial non-synonymous de novo variation gene list, were highly interconnected in the PPI. The WWP1 gene had the highest rank in the DADA analyses. Results of the pathway analyses suggest the enrichment of genes involved in immunological systems. In short, almost all genes involved in the DNMs of the present study are expressed in the human brain and implicated in synaptogenesis and neuronal apoptosis.
Descriptors: 1. High-throughput nucleotide sequencing 2. Exome 3. DNA mutacional analysis 4. Obsessive-compulsive disorder/genetics.
1
1. INTRODUÇÃO
Este estudo faz parte da linha de pesquisa do Programa Transtornos
do Espectro Obsessivo-Compulsivo do Instituto de Psiquiatria do Hospital
das Clínicas da Faculdade de Medicina da Universidade de São Paulo
(PROTOC) e do Instituo Nacional de Ciências e Tecnologia de Psiquiatria do
Desenvolvimento para Crianças e Adolescentes (INPD). Em paralelo às
abordagens fenotípicas e de avaliação de tratamento das pesquisas
desenvolvidas no PROTOC e no INPD, também são realizados estudos que
investigam bases biológicas associadas ao risco de desenvolver o transtorno
obsessivo-compulsivo (TOC).
A teoria predominante dos estudos que buscavam as bases genéticas
dos transtornos mentais das últimas décadas se baseou na hipótese de que
apenas as variações comuns estivessem relacionada com a origem destas
afecções (State e Levitt, 2012). Variações comuns são aqueles alelos que
ocorrem com uma frequência maior que 5% na população geral. As
variações comuns mais estudadas são os polimorfismos de base única
(SNP). Diversas destas variações em conjunto, cada uma com um pequeno
efeito, estariam relacionadas com o fenótipo (doenças comuns,
consideradas complexas, em que muitas variantes genéticas com um
pequeno efeito estariam associadas ao risco de desenvolver tais doenças,
conjuntamente, quando em interação com o ambiente) [Sebat, 2007]. Este é
o fundamento dos estudos de genes candidatos e dos estudos de
2
associação do genoma inteiro (GWAS) realizados com um grande número
de pacientes, familiares e controles com transtornos mentais. Porém, os
primeiros GWAS falharam em conseguir detectar entre milhares de alelos
aqueles possivelmente relacionados ao risco de desenvolver a doença (Zuk
et al., 2012). Os resultados mostraram que as variações comuns têm um
pequeno efeito sobre o risco de desenvolver. Críticas a esse tipo de estudo
estão relacionadas com o desenho do estudo (caso e controle), que pode
levar a estratificação populacional e com o tamanho da amostra necessário
para se observar o efeito destas variáveis e com o tipo de testagem a ser
utilizada quando se trabalha com este tipo de abordagem (Manolio et al.,
2009).
Além dos fatores envolvidos com o método de observar as variações
comuns do genoma, uma série de artigos discute outras possíveis causas
para a falta de achados nesta área relacionadas com o erro na hipótese de
hereditariedade das doenças complexas (missing heritability) [Sebat, 2007).
Entre os principais fatores que acredita-se estarem implicados com esta
baixa estimativa de herdabilidade, destacam-se aqueles relacionados com
as interações gene-gene e gene-ambiente que não são levadas em conta no
cálculo da hereditariedade (Zuk, et al., 2012). Além disso, a falta de
conhecimento do impacto de todas as variáveis genômicas, incluindo-se as
variações raras que não são contempladas em seu todo com os métodos de
estudos de variações comuns e cálculo da herdabilidade, também pode
explicar estes achados iniciais negativos.
3
O estudo da contribuição das variações raras (aquelas com ocorrência
de até 5%) ou muito raras (com uma ocorrência menor que 0,5%) para as
doenças complexas cresceu muito depois dos primeiros resultados dos
GWAS (State, 2010).
Estas variações raras podem ser estruturais e são conhecidas como
variações no número de cópias (CNVs) [Malhorta e Sebat, 2012]. Apesar de
muitos autores incluírem em CNVs vários tipos de variações estruturais - tais
como translocações, inversões, deleções e duplicações -, na psiquiatria o
termo CNV se refere apenas a deleções e duplicações maiores do que 1kb
(Iafrate et al., 2004). Acredita-se que 12% a 15% do genoma é constituído
de CNVs (Redon, et al., 2006). Apesar da baixa ocorrência absoluta, uma
única CNV pode afetar vários genes, tornando-se muitas vezes mais
deletéria do que os SNPs, que ocorrem com maior frequência (Alkan et al.,
2011).
Os estudos em psiquiatria feitos com autismo (Sebat et al., 2007),
esquizofrenia (Consortium, 2008), transtorno bipolar (Malhotra et al., 2011),
transtorno de déficit de atenção e hiperatividade (Williams et al., 2010) e
TOC (McGrath, In Press) mostram que as CNVs estão implicadas no risco
de desenvolver estes transtornos em diferentes graus, seja pelo aumento na
frequência de CNVs raras e maiores que 500kb quando comparadas com os
controles, seja pela maior taxa de ocorrência de CNVs de novo comparadas
com controles. A mesma CNV ou regiões com maior frequência de CNVs
são semelhantes em diferentes transtornos, de modo que já foi sugerido na
literatura que esses transtornos não são de fato diferentes entre si ou que
4
estejamos observando um espectro da mesma condição (Malhotra e Sebat,
2012). Essas CNVs estão associadas com genes relacionados ao
neurodesenvolvimento (Merikangas et al., 2009).
Mais recentemente, com o avanço das técnicas genômicas - incluindo-
se o sequenciamento de última geração - tornou-se possível investigar os
alelos de baixa frequência no genoma inteiro, aumentando-se a detecção de
variações genômicas de risco para os transtornos mentais. São mais
estudadas com esta técnica as variações raras de troca de um par de bases.
Estas variações são denominadas em inglês single nucleotide variation
(SNVs). Os principais estudos feitos com estas variações são os de todas as
regiões codificadoras do genoma, denominadas exoma. Apesar de o exoma
ser apenas 1% de todo o genoma, é nesta região que se encontram 85% de
todas as variações consideradas de grande efeito de risco para as doenças
comuns. Além disso, as variações no exoma são consideradas mais
deletérias do que em outros pontos do genoma humano (Goldstein, 2009).
Os principais trabalhos que usam a técnica de sequenciamento de
exons do genoma inteiro em psiquiatria são feitos em trios (pai, mãe e filho
afetado) e em casos esporádicos (não familiais) para observar variações de
novo (novas, não observadas nos pais). Os principais achados se referem à
frequência de ocorrência dessas variações, maiores em pacientes quando
comparados com controles, principalmente quando se observam as
variações consideradas não sinônimas, isto é, que alteram a produção de
proteína, ou levam a sua não produção, variações estas denominadas sem
sentido, do inglês nonsense (Fu et al., 2013). Os genes que apresentam
5
estas variações que afetam a proteína e que são encontrados em probandos
geralmente ocorrem expressos no cérebro e estão envolvidos com
sinaptogênese (Sanders et al., 2012). Uma série destas variações está
envolvida com doenças sindrômicas, o que aproxima os transtornos mentais
das doenças consideradas mendelianas (Kryukov et al., 2007).
Assim, nesta tese procuramos investigar variações genômicas
observadas com técnicas de sequenciamento em larga escala que, segundo
nosso conhecimento, ainda não foram estudadas. Este trabalho faz parte da
linha de estudo das variações genéticas no TOC, sendo elas raras ou
comuns, estruturais ou de uma troca de base. Apresentaremos a seguir os
resultados da análise de sequenciamento do exoma do genoma inteiro em
trios de pacientes com TOC para observar variações de novo não sinônimas
e variações raras novas (que não se encontram no banco de dados do
National Center for Biotechnology Information (NCBI) herdadas. Além da
observação inicial dos genes com estas variações, realizamos uma análise
de redes, baseados na hipótese de que genes (proteínas) associados com a
mesma doença se encontram próximas em um rede de interação proteína –
proteína. Consideramos a interação proteína-proteína e criamos uma rede
com o produto dos genes (proteína) que tiveram em sua sequência SNVs de
novo e não sinônimas. Ademais, fizemos uma análise de processos
biológicos para verificar se os genes com variações de novo estão
envolvidos com com sinaptogênese, apoptose celular e processos
envolvidos com o sistema glutamatérgico, já descritos em pacientes com
TOC.
6
1.1. Objetivos
O objetivo geral deste trabalho é procurar variações de novo não
sinônimas em probandos com TOC e verificar quais são os genes em que
há ocorrência destas variações. Após esta etapa, usaremos uma abordagem
de interação proteína-proteína para criar uma rede e observar a importância
destes genes na rede. Por meio da observação de uma meta-análise
genética de TOC publicada recentemente por Taylor (2012), será observado
se estes genes são associados com genes candidatos para TOC.
Faremos também um estudo funcional destes genes para verificar em
quais processos biológicos eles estão envolvidos. Além disso, iremos
observar se estas variações são consideradas deletérias.
O objetivo específico é: verificar quais são os processos biológicos
envolvidos com genes que apresentam variações raras presentes em
bancos de dados de sequenciamento de exon e variações novas, isto é, que
não foram descritas na base de dados do NCBI.
1.2. Hipóteses
1. Esperamos encontrar a ocorrência de variações de novo não sinônimas
em probandos com TOC e que a taxa de ocorrência destas variações de
7
novo não sinônimas seja maior do que a taxa encontrada em uma população
sem transtorno psiquiátrico.
2. Esperamos encontrar que as variações de novo não sinônimas estejam
presentes em genes relacionados a processos biológicos envolvidos com o
risco de desenvolver TOC e para isto estudaremos estes genes dentro de
uma rede de interação proteína - proteína utilizando banco de dados do
interatoma.
3. Esperamos encontrar uma associação destes genes com variações de
novo com genes candidatos para TOC observados por meio dos resultados
de uma meta-análise de genética em TOC.
4. Esperamos encontrar que as variações novas raras herdadas estejam em
genes que fazem parte de processos biológicos envolvidos com o risco de
desenvolver TOC.
8
2. REVISÃO DA LITERATURA
2.1. Transtorno Obsessivo-Compulsivo
O TOC é caracterizado pela presença de obsessões e/ou compulsões,
que geram grande sofrimento devido, principalmente, ao tempo consumido
e/ou à interferência nas rotinas diárias (Insel, 1985). As obsessões são
ideias, pensamentos ou imagens recorrentes e intrusivos, vividos como
incontroláveis e associados a sentimentos incômodos e/ou ansiedade. As
compulsões são comportamentos repetitivos e estereotipados que o
indivíduo se sente impelido a executar e que resultam em redução
momentânea do incômodo ou da ansiedade (Leckman et al., 1997).
Na população em geral, o TOC tem uma prevalência estimada de 2,0 a
2,5% ao longo da vida (Ruscio, Stein et al., 2010). Segundo estudos
transculturais, o TOC apresenta uma prevalência similar em diferentes
partes do mundo, e seus sintomas são semelhantes em diversas populações
e culturas (Matsunaga e Seedat, 2007).
Cerca de metade dos adultos acometidos pelo TOC manifesta os
primeiros sintomas durante a infância e/ou adolescência, e até 80% destes
indivíduos apresentam sintomas antes dos 18 anos (Rasmussen e Eisen,
1990; De Mathis et al., 2008).
9
2.2. Genética do Transtorno Obsessivo-Compulsivo
Estudos de gêmeos e de agregação familiar
Apesar de o conceito do TOC ter surgido a partir de uma teoria
eminentemente psicológica, o envolvimento de fatores genéticos na etiologia
do TOC vem sendo enfatizado desde as primeiras descrições do quadro
(Inouye, 1965; Pauls, 1992).
Vários estudos de famílias evidenciaram que ter um familiar afetado
pelo TOC aumenta a probabilidade de desenvolvimento do transtorno
(Lenane et al., 1990; Black et al., 1992; Pauls et al., 1995; Nestadt et al.,
2000; Do Rosario-Campos et al., 2005). Inclusive, a manifestação dos
sintomas de TOC com início antes dos 10 anos de idade e a comorbidade
com transtorno de tiques aumentam significativamente a probabilidade de
agregação familiar (mais de um indivíduo afetado na mesma família) no TOC
(Nestadtet al., 2000; Gonzales, 2003; Do Rosario-Campos et al., 2005;
Hanna et al., 2005). No entanto, a agregação familiar do TOC não é
explicada exclusivamente por fatores genéticos, e alguns estudos relataram
maior agregação familiar em parentes de indivíduos com TOC não tratado
quando comparados com aqueles em tratamento, o que vem reforçar o
impacto de fatores ambientais na gênese do transtorno (Grabe et al., 2006).
Por outro lado, outros achados reforçam a hipótese de herdabilidade
genética para o TOC. Estudos de gêmeos, por exemplo, demonstram que
enquanto em gêmeos monozigóticos a concordância para o diagnóstico de
TOC é em torno de 70% a 80%, em gêmeos dizigóticos essa concordância é
10
de apenas 22% a 47% (Inouye, 1965; Gottesman, 1997), o que corresponde
a uma estimativa de herdabilidade genética em torno de 26% a 33%
(Andrews et al., 1990; Jonnal et al., 2000). Outros autores mostraram que a
herdabilidade associada à idade de início precoce do TOC é maior do que à
associada à idade de início na fase adulta, respectivamente, h2=45-65% e
h2=27-47% (Van Grootheest et al., 2005).
Um estudo recente estimou a herdabilidade do TOC utilizando dados
de genoma inteiro para variações comuns e um programa de análises de
dados complexos do inglês Genome-wide Complex Trait Analysis (GCTA)
para medir a herdabilidade. A herdabilidade estimada para o TOC foi de 0.37
(SE = 0.07, p=1.5e-07). No mesmo estudo, foram conduzidas outras
análises de herdabilidade levando-se em conta a organização genômica das
variações comuns, tais como posição no cromossomo, frequência do menor
alelo (MAF), anotações funcionais das variações e início dos sintomas de
TOC, e foi observada maior herdabilidade nas variações relacionadas com a
expressão de genes das regiões do córtex parietal e regiões cerebelares.
Outro achado interessante foi a correlação genética entre TOC e síndrome
de Tourette (ST) [0.41 (se = 0.15, p=0.002)] (Davis, In Press).
Na mesma direção, estudos de análise de segregação de TOC em
famílias demonstraram que a transmissão do transtorno segue um modelo
genético (Alsobrook et al., 1999; Cavallini et al., 2000; Nestadt et al., 2000;
Hanna et al., 2005).
11
2.3. Estudos de genética molecular
Os estudos de genética molecular no TOC, que buscam identificar
regiões do genoma e genes candidatos associados com o risco de
desenvolver o transtorno, começaram a ser realizados a partir das primeiras
evidências mostradas pelos estudos genético-epidemiológicos sobre a
participação do componente genético na etiologia do TOC. Serão
apresentados abaixo os principais estudos, tanto de ligação (linkage), que
apontam regiões cromossômicas candidatas para o risco de TOC, como
estudos de genes candidatos e de associação de genoma inteiro, na sua
grande maioria, associados com variações comuns.
Um dos primeiros estudos de ligação de varredura de genoma,
realizado com pacientes com idade de início precoce do TOC, identificou
uma região candidata relacionada ao marcador D9S288, do cromossomo
9p24, que preencheu critérios para significância sugestiva de ligação [LOD
(logarithm of the odds ratio) =1,97] (Hanna et al., 2002). Esse achado foi
reproduzido por dois estudos que usaram critérios amplos para a definição
de TOC e observaram forte evidência de ligação no cromossomo 3q27-28
(Willour, Yao Shugart et al., 2004; Shugart, Samuels et al., 2006). Além
desses, picos nos cromossomos 10p (Hanna et al., 2007a; Liang et al.,
2008), 15q (Shugart et al., 2006; Ross et al., 2011) e 19q (Hanna et al.,
2002) também foram reportados.
Samuels et al. (2007) avaliaram 219 famílias de múltiplos afetados com
colecionamento como principal sintoma do TOC. Encontraram que, em
12
famílias com dois ou mais familiares com colecionamento, havia uma
significativa ligação do TOC com o cromossomo 14, mais especificamente
com o marcador C14S1937. Em famílias com menos de dois familiares com
colecionamento ocorreu uma ligação sugestiva no cromossomo 3 (marcador
D3S2398).
Um estudo recente de ligação com 33 famílias caucasianas, com duas
ou mais crianças afetadas por família, foi conduzido e apontou a região do
cromossomo 1p36 como uma candidata a ter relação com o risco de
ocorrência (Mathews et al., 2012).
A maior parte dos estudos genéticos de associação baseia-se em
análises de variações genômicas conhecidas como polimorfismos de base
única (SNPs) (lê-se “snip”, do inglês, single nucleotide polymorphisms) de
genes candidatos. Estes estudos podem ser do tipo caso-controle ou com
trios (probando e pais). A principal limitação da análise de associação caso-
controle pode acontecer pela estratificação populacional, ou seja, quando os
casos não estão etnicamente emparelhados com os controles. Os estudos
baseados em famílias, com trios, controlam o viés da estratificação
populacional, já que o que se avalia são os alelos que foram transmitidos
para os afetados, em comparação com os alelos não transmitidos. Além
disso, estes estudos são feitos em sua maioria, como já citado, com
variações comuns no genoma. Variações comuns são consideradas aquelas
variações genômicas (SNPs) em que o alelo (nucleotídeo) ocorre com uma
frequência entre 1% a 5% na população geral. Esta frequência é conhecida
13
como a de menor alelo para o loci em questão, do inglês minor allele
frequency (MAF).
Mais de 80 genes candidatos foram estudados em TOC. Entre estes
estão genes que, em geral, codificam neurotransmissores envolvidos nos
circuitos cerebrais que fazem parte dos mecanismos fisiopatológicos do
TOC (Tabela 1). Os principais genes estudados são os envolvidos nas vias
serotonérgicas, dopaminérgicas e glutamatérgicas (Pauls, 2008; 2010;
Pittenger et al., 2011; Wu et al., 2012), além daqueles envolvidos com
sistema imunológicos (Hounie et al., 2008; Cappi et al., 2012) e substância
branca (Stewart et al., 2007b). O gene SLC1A1, que codifica o transportador
de glutamato e que está dentro da região de ligação do cromossomo 9p, é o
único gene candidato que foi replicado em amostras de TOC independentes.
Porém, as variações dentro deste gene consideradas associadas com o
risco de desenvolver TOC diferem de estudo para estudo (Arnold et al.,
2006; Dickel et al., 2006; Stewart et al., 2007; Wendland et al., 2009). A
recente meta-análise com este gene que observa 9 SNPs dentro do gene
apresenta resultado positivo apenas para dois SNPs (rs301443 e
rs12682807), quando a amostra foi dividida por sexo (associação apenas
para o sexo masculino). Os autores discutem a importância do tamanho
amostral para melhor compreensão do envolvimento do gene para o risco de
desenvolver TOC (Stewart et al., 2013).
Alguns estudos foram feitos com outros genes que participam do
sistema glutamatérgico; entre estes, um achado interessante ocorreu com
modelo animal com a deleção do gene SAPAP3. Os animais com esta
14
deleção apresentavam aumento do comportamento de grooming e
ansiedade-like (Welch et al., 2007). O gene SAPAP3 codifica uma proteína
pós-sináptica localizada nas sinapses excitatórias da região do cérebro
denominada estriado. Esta é uma região relacionada à fisiopatologia do TOC
(Haber e Heilbronner, 2013). Na tentativa de traduzir estes achados em
modelo animal para o ser humano, estudos sugeriram que o gene ortólogo
ao SAPAP3 em humanos, o gene DLGAP3, seja um possível candidato para
o TOC (Welch et al., 2007). Os autores (Züchner et al., 2009) identificaram
um aumento na frequência de uma variação rara não sinônima no gene
DLGAP3 associado ao risco para desenvolver TOC e tricotilomania.
(Bienvenu et al., 2009) também identificaram uma variação comum do gene
DLGAP3 relacionado ao comportamento de grooming em um estudo
baseado em família, apesar de outro estudo apresentar algumas
inconsistências (Boardman et al., 2011).
Um estudo que associa SNPs nos genes do sistema glutamatérgico e
volume cerebral (córtex orbito frontal, córtex do cíngulo anterior, tálamo,
caudado, putâmem, globo pálido e hipófise) foi conduzido com 20 pacientes
virgens de tratamentos (drug naive). Nenhum dos 519 SNPs foi associado
com mudança de volume cerebral nestes pacientes, depois de correção
estatística para múltiplas testagens. Foi encontrada apenas uma tendência à
associação do gene DLGAP2 (rs6558484 e rs7014992). Novamente, os
autores sugerem maior investigação do gene em uma amostra maior de
pacientes (Wu et al., 2013).
15
Recentemente, (Taylor, 2012) fez uma meta-análise com os genes
candidatos para TOC e achou que os genes HTTLPR e HTR2A estão
associados com o transtorno. Analisando a amostra por diferença de sexo,
ele reportou que os polimorfismos envolvidos na regulação de catecolaminas
(COMT e MAOA) estão associados com o risco de desenvolver TOC no
sexo masculino. No mesmo trabalho, em uma análise secundária, foi
reportado que 18 polimorfismos, de um total de 204 observados, foram
significativos para o risco de TOC.
Tabela 1: Genes avaliados em estudos de associação com transtorno obsessivo-compulsivo (TOC)
Sistemas envolvios Genes candidatos
Genes envolvidos no metabolismo de neurotransmissores
Gene da Catecol-O-metiltransfrase (COMT)
Gene da Monoamino-oxidade –A (MAO-A)
Genes ligados ao sistema serotonérgico
Gene do transportador da serotonina (SLC6A4, 5-HTT, SERT)
Gene do receptor da serotonina tipo 2A (5-HT2A);
Gene do receptor da serotonina tipo 1B (5HT1B)
Gene do receptor da serotonina tipo (5HT2C)
Genes das enzimas triptofano hidroxilase 1 e 2 (TPH1 e TPH2)
Genes relacionados ao sistema dopaminérgico Gene do transportador de dopamina (DAT1 ou SLC6A3)
Gene do receptor de dopamina D2 (DRD2)
Gene do receptor de dopamina D3(DRD3)
Gene do receptor de dopamina D4 (DRD4)
Genes relacionados ao sistema glutamatérgico
Gene do receptor ionotrópico do glutamato, N-metil- d-aspartato 2B (GRIN2B)
Gene do transportador de glutamato de alta afinidade neuronal/epitelial (SLC1A1)
Genes dos receptores ionotrópicos do glutamato, kainato 2 e 3 (GRIK2 e GRIK3)
Genes relacionados ao sistema opioide Gene do receptor opioide, mu 1 (OPRM1) (Urraca et al., 2004)
Genes relacionados ao sistema gabaérgico Gene do receptor do ácido gama-aminobutírico (GABBR1)(Zai et al., 2005)
16
Sistemas envolvios Genes candidatos
Genes relacionados ao desenvolvimento estrutural do sistema nervoso central
Gene do fator neurotrófico derivado de cérebro (BDNF)(Hall et al.,
2003)
Gene do fator de transcrição da linhagem oligodendrocítica 2 (OLIG2)
Gene da glicoproteína oligodendrocítica da mielina (MOG)(Zai et al., 2004; Atmaca et al., 2010)
Gene da adenosina deaminase, RNA-especifica, B2 (ADARB2)(Hanna et al., 2007b)
Série HOX (genes relacionados à morfogênese)(Nestadt et al.,
2012)
2.4. Estudo de associação do genoma inteiro (GWAS)
Na última década, o sequenciamento do genoma humano, o
mapeamento de milhares de SNPs (Hinds et al., 2005) e a conclusão do
projeto de desenvolvimento do mapa de haplótipos do genoma humano
(HapMap) (Consortium, 2005) (International HapMap Consortium, 2005)
trouxeram grande progresso para a compreensão da fisiologia do genoma
humano e seu impacto na etiologia de diversas doenças.
Como consequência dessas inovações tecnológicas e métodos
estatísticos para observar a distribuição destas variações do genoma,
surgiram os estudos genéticos de associação do genoma inteiro, conhecidos
no inglês como whole genome association study (WGAS), que avaliaram
milhares de pacientes e controles e centenas de milhares de SNPs,
buscando uma associação destes SNPs com o risco de desenvolver
doenças, entre elas, as doenças consideradas comuns, em que o modelo
poligênico de associação genética é o modelo mais próximo de explicação
do envolvimento do componente genético (Lander et al., 2001; Subramanian
17
et al., 2001; Sebat, 2007). Apesar de este modelo ser dito apropriado para
doenças consideradas poligênicas, diferentemente do que se esperava, os
resultados dos primeiros WGAS explicaram muito pouco o papel do
componente genético para estas doenças, incluindo-se os transtornos
mentais.
Para o TOC, o primeiro WGAS foi publicado no ano de 2012. De fato,
apesar de ser o maior estudo com TOC feito até agora, os resultados
mostraram que não ouve uma associação de todos os SNPs com probando
de TOC quando comparados com controles. Os menores valores de p
ocorreram em dois SNPs localizados dentro do gene DLGAP1, um gene do
complexo neuronal pós-sináptico (p=2.49x10-6 e p=3.44x10-6). Ainda assim,
estes valores de p não são considerados significativos em estudos de
GWAS. Na análise com os trios, o SNP rs6131295, próximo ao gene
BTBD3, excedeu o p valor de significância para estudos de WGAS, sendo o
seu p valor=3.84 x 10-8. Entretanto, quando se juntaram os dados de caso e
controles com trios, este SNP não continuou sendo significativo. Embora
quando foram examinados apenas os SNPs associados com o controle de
expressão do genes no cérebro e SNPs associados com sítios de metilação
foram observados sinais de associação de SNPs com esta função em
probandos com TOC, tanto no estudo caso e controle, como em trios,
sugerindo que estes SNPs possam estar associados com o risco de
desenvolver o transtorno (Stewart et al., 2012).
A ausência de resultados conclusivos a partir dos estudos de
associação com SNPs levou a novos questionamentos sobre a base
18
genética das doenças complexas, como os transtornos mentais, e as
estratégias utilizadas até o momento para identificar os loci de
suscetibilidade. Este questionamento é conhecido com a falta de
herdabilidade (missing heritability) para estas doenças. Um série de artigos
foi publicada em que se discutiu o tema da missing heritability, tentando-se
compreender o que poderia estar por trás desta falta de achados (Zuk et al.,
2012).
Se, por um lado, foi possível observar que nos estudos de associação
de SNPs comuns o tamanho de efeito das associações encontradas foi
modesto, por outro lado, os SNPs encontrados não foram necessariamente
funcionais (ou seja, não alteravam a função da proteína transcrita de genes
conhecidos (também chamados de mutação silenciosa), o que dificulta a
compreensão da base genética dos transtornos mentais (Sebat, 2007;
Manolio et al., 2009). Ademais, observou-se que uma porção substancial da
falta de hereditariedade pode estar associada com o envolvimento do meio
ambiente na etiologia destes transtornos que, além da interação gene-gene,
não é levado em conta no cálculo da hereditariedade (Zuk et al., 2012).
Ao longo do tempo, também ficou claro que, embora o HapMap
(Internation HapMap project http//:hapmap.ncbi.nlm.nih.gov) seja um
instrumento poderoso para catalogar as variações genéticas consideradas
comuns (frequência entre 1-5%) para estudos genéticos de associação, o
conjunto de SNPs usados como marcadores moleculares não cobre
totalmente a variabilidade do genoma (Goldstein, 2009). Compreender o
papel da hereditariedade genética nas doenças complexas requer uma
19
observação abrangente das variações genômicas, incluindo-se as variações
raras (Manolio et al., 2009; Eichler et al., 2010; Zuk et al., 2012).
2.5. Variações raras
Os estudos de variações raras na psiquiatria acompanham o
questionamento do modelo conceitual, que era vigente até então, para
explicar o envolvimento do componente genético nos transtornos mentais.
Este modelo é conhecido em inglês como common variant common disease
(CVCD), e por trás dele há a hipótese de que as variações genômicas
associadas com doenças complexas são as variações comuns (ocorrência
maior do que 5%).
A partir das observações do envolvimento de variações raras no
genoma surge um novo modelo conceitual, conhecido em inglês como rare
variant common disease (RVCD), que presume que as variações raras no
genoma é que estão associadas com as doenças complexas (State, 2010;
State e Levitt, 2011).
Os primeiros estudos de variações raras no genoma inteiro em
psiquiatria foram os de variações estruturais. Estas são conhecidas como
variações no número de cópias, do inglês copy number variation (CNVs), e
podem ser deleções e/ou duplicações de segmentos do genoma (Malhotra e
Sebat, 2012).
20
As primeiras descrições de perdas e ganhos no genoma humano
ocorreram na década de 80 (Beckmann et al., 2007). Porém, foi a partir do
desenvolvimento da técnica hibridação genômica comparativa, baseada em
chips de DNA (aCGH) (array-based Comparative Genomic Hybridization), na
década de 90, que aumentou a compreensão deste tipo de variação
estrutural do genoma (Lee e Scherer, 2010). Seu processo de formação é
geralmente associado com os mecanismos de rearranjos cromossômicos no
genoma; os principais são a recombinação homóloga não alélica (Non Allelic
Homologous Recombination – NAHR) e a junção de extremidades não
homólogas (Non-Homologous End Joining – NHEJ) (Malhotra e Sebat,
2012). Os principais trabalhos que estabeleceram que as CNVs fazem parte
da variabilidade genética normal do genoma humano foram publicados em
2004 (Iafrate et al., 2004; Sebat et al., 2004b). Em 2007, (Redon et al., 2006)
observaram que estas variações cobriam de 12% a 15% (mais ou menos
500 Mb) do genoma humano. As CNVs foram categorizadas inicialmente
como segmentos de um kilobase (Kb) a vários megabases (Mb) de
fragmentos de DNA e compreenderam grandes inserções ou deleções no
genoma. Todavia, com a mudança de precisão das técnicas de detecção de
CNVs foi possível observar CNVs menores, de modo que muitos estudos
passaram a incluir em suas análises sequências menores que 1kb (Sebat et
al., 2004a; Conrad et al., 2010). Apesar de a maioria das CNVs serem
individualmente mais raras na população quando comparadas com os SNPs
(variações também importantes para a variabilidade genética), em conjunto
elas são uma fração significativa das variações genômicas do genoma
humano (Alkan et al., 2011). As CNVs podem ser herdadas e de novo
21
(esporádicas); podem conter partes de genes, um ou mais genes e regiões
regulatórias no genoma, ou mesmo não conter qualquer elemento
conhecido. Consequentemente, sua ocorrência pode interromper regiões
funcionais do genoma e gerar novas combinações de sequências,
produzindo novas moléculas, o que está associado com a variabilidade
fenotípica, incluindo-se a ocorrência de doenças (Conrad et al., 2010; Lee e
Scherer, 2010). Dentro da psiquiatria, CNVs são sinônimos de variação rara,
apesar de se saber que as variações estruturais têm uma ampla distribuição
de tamanho, tipo e frequência do alelo que as alberga e que a maior parte
destas variações em um genoma individual está em alelos comuns
(Mccarroll et al., 2008; Conrad et al., 2010).
Entretanto, são as CNVs raras as mais estudadas. Uma série de
estudos foi feita com CNVs em psiquiatria, podendo ser estudos de famílias
para observar CNVs de novo que não foram herdadas pelos genitores ou
estudos caso-controle para observar a frequência de ocorrência destas
variações entre populações afetadas e não afetadas pelo diagnóstico em
questão. Os principais transtornos neuropsiquiátricos nos quais os CNVs
têm um importante papel no risco para o seu desenvolvimento são autismo
(Sebat et al., 2007; Marshall et al., 2008; Glessner et al., 2009; Pinto et al.,
2010; Gilman et al., 2011; Sanders et al., 2011) e esquizofrenia (Consortium,
2008; Stefansson et al., 2008; Walsh et al., 2008; Kirov et al., 2009; Sebat et
al., 2009; Xu et al., 2009; Malhotra et al., 2011). Nesses transtornos, as
CNVs, consideradas raras (frequência de ocorrência menor que 1% na
população), estão associadas com genes envolvidos em processos do
22
neurodesenvolvimento, tais como sinaptogênese, mobilidade neuronal e
axonal, processos de degradação proteica via sistema de ubiquitina-
proteossoma (sinalização por ubiquitina) e complexos proteicos de
sinalização pós-sináptico. Outro achado interessante é que regiões
cromossômicas de CNVs em probandos são loci conhecidos associados
com síndromes de micro-deleção, como, por exemplo, região cromossômica
16p11.2, síndrome de Williams lócus 7q11.23; síndrome de Prader-Willi
Angelman no loco 15q11-13 e síndrome VCFS Di George no loco 22q11.2
(Malhotra e Sebat, 2012). As CNVs de novo têm um importante papel para o
risco destes transtornos. A frequência de ocorrência é maior em probandos
do que em controles.
Em casos esporádicos (considerados famílias nas quais os genitores
até a segunda geração não têm o transtorno em questão) foi observada uma
frequência maior de CNV de novo no probando quando comparado com
irmão não afetado (Xu et al., 2009; Levy et al., 2011; Sanders et al., 2011).
Entretanto, em outros estudos não foi possível observar esta diferença entre
casos esporádicos e familiais com relação à frequência de CNVs de novo. O
que foi relatado foi apenas uma frequência maior destas variações em
probandos quando comparados com controles (Sebat et al., 2007; Kirov et
al., 2009; Malhotra et al., 2011). Apesar de as variações de novo serem
importantes para os transtornos psiquiátricos, ainda não é totalmente
estabelecido se ela é importante para casos esporádicos e casos familiares
(Malhotra e Sebat, 2012).
23
Também já foram reportados estudos com CNVs em transtorno de
déficit de atenção e hiperatividade, no qual ocorre uma sobreposição das
regiões cromossômicas ricas em CNVs associadas com autismo e
esquizofrenia (Williams et al., 2010) e síndrome de Tourette (ST), em que foi
observada uma sobreposição de CNVs com autismo (Fernandez et al.,
2012).
O primeiro estudo que procurou CNVs em uma amostra de probandos
com TOC foi feito em regiões cromossômicas específicas (cromossomos 15
e 22) associadas com as síndromes DiGeorge, síndrome VCFS e Prader-
Willi com a técnica denominada Multiplex Ligation-dependent
ProbeAmplification (MLPA), que possibilita a quantificação relativa pelo
número de cópias de mais ou menos 50 sequências de DNA em um
experimento. Os resultados desse estudo foram negativos (Delorme et al.,
2010). Uma das justificativas para esses resultados foi a limitação da técnica
utilizada para observar CNVs. A técnica de array, como comentado
anteriormente, permite observar em um único experimento milhares de
sequências de DNA.
Hooper et al. (2012) reportaram uma deleção na região de translocação
do cromossomo 6q, tendo utilizado a técnica de aCGH em um probando do
sexo masculino com síndrome de Tourette (ST) e TOC. Esta deleção foi
herdada da mãe, que também apresentou TOC, sugerindo-se uma região
candidata no cromossomo 6q16.
24
Recentemente, foi submetido à revista Molecular Psychiatry o primeiro
estudo de CNVs que usa a técnica de chip de DNA no genoma inteiro com
probandos com TOC e ST. Foram analisados 2699 probandos com TOC e
ST e 1789 controles. Dentro do grupo de probandos com TOC, foram
analisados o pai e a mãe de 348, formando trios. Esse estudo focou em
observar CNVs raras maiores do que 500kb, possivelmente associadas com
processos envolvidos com o neurodesenvolvimento. O principal achado foi
um enriquecimento de deleções na região cromossômica 16p13.11, já
reportada em autismo e esquizofrenia. Dentre estas CNVs, três foram de
novo, o que demostra também o envolvimento de variações de novo para
TOC e ST (MacGrath, In Press).
Estes achados de CNVs mostram que o modelo que inclui as variações
raras como associadas com o risco de desenvolver os transtornos mentais é
plausível e consistente. Estudos com variações raras trouxeram questões
interessantes relacionadas com variações, as quais são, de fato, importantes
para o risco de desenvolver os transtornos mentais (Malhotra e Sebat,
2012).
Sabe-se hoje que tanto as variações raras como as comuns têm um
papel no risco de desenvolver a maior parte dos transtornos mentais, e,
quando se fala das raras, aquelas consideradas de novo têm um papel
importante. Apesar de essas variações terem uma baixa frequência de
ocorrência por geração, podem deter um grande efeito genético para as
doenças. Elas oferecem uma explicação para a elevada incidência de
transtornos psiquiátricos dependente da idade do genitor de sexo masculino,
25
visto que estas “mutações” podem aparecer durante o processo de divisão
celular para a formação do espermatozoide. Quanto maior for a idade do pai,
menor é a eficiência da divisão celular e maior é a chance de ocorrer
mutações de novo. Entre 5% e 10% dos pacientes com autismo e
esquizofrenia há a contribuição de variações de novo. Os estudos de
mutações pontuais a partir do sequenciamento de exon podem aumentar a
compreensão do papel destas variações para os transtornos mentais (State
e Levitt, 2011)
2.6. Estudos de exon do genoma inteiro, para a busca de variações de
novo
A emergência da plataforma de sequenciamento de última geração
possibilitou uma minuciosa pesquisa das variações de uma troca de par de
bases, sendo elas raras ou comuns em todos os genes do genoma humano,
isto é, no exoma (Girard et al., 2011; O'roak et al., 2011; Sanders et al.,
2012; Mowry e Gratten, 2013; Yauk et al., 2013). Apesar de apenas 1% do
genoma ser constituído de regiões que codificam proteínas, é nessa
localidade que estão 85% das variações com um grande efeito no risco de
desenvolver doenças comuns (Goldstein, 2009; Manolio et al., 2009; Lehne
et al., 2011). A análise de sequenciamento do exon do genoma inteiro de
6515 indivíduos de etnias africana e europeia mostrou um excesso de
variações raras nas regiões que codificam proteína no genoma. Estas
variações são conhecidas como single nucleotide variation (SNVs). Este
26
grupo estimou, pelos modelos matemáticos, que 73% de todos os SNVs de
regiões que codificam proteínas e que 83% destas, previstas como
deletérias, tiveram sua origem entre 5 e 10 mil anos atrás. A distribuição
destas variações deletérias estão concentradas em genes envolvidos em
doenças, principalmente em doenças mendelianas. São variações que, por
causa da sua origem recente (cronologia da evolução), ainda não passaram
pela seleção de purificação e podem ser mecanismos genéticos novos
envolvidos no risco de desenvolver doenças (Fu et al., 2013).
Alguns grupos sequenciaram o exoma de famílias (trios - pai, mãe e
probando, e quartetos - pai mãe, probando e irmão não afetado) com
autismo (O'roak et al., 2011; 2012; Sanders et al., 2012; Yu et al., 2013) e
esquizofrenia (Girard et al., 2011; Xu et al., 2011), para observar variações
de novo em regiões que codificam proteína no genoma e caracterizaram
com sucesso genes que conferem risco para o desenvolvimento destes
transtornos. Os principais achados estão associados com a frequência de
ocorrência destas variações de novo em regiões que codificam proteína em
probandos, quando comparados com controles ou com irmãos não afetados.
Esta diferença é ainda maior quando estas variações são não sinônimas e
localizadas em genes que são expressos no cérebro e relacionados com
sinaptogênese (Awadalla et al., 2010; Girard et al., 2011; Sanders et al.,
2012; Tennessen et al., 2012).
Em TOC, poucos estudos foram feitos observando-se variações raras,
em sua maioria, missense, em genes candidatos. Estes foram feitos com o
gene SAPAP3, e foram encontradas algumas variações raras deste
27
associados com TOC e tricotilomania (Züchner et al., 2009) com o gene
SLC1A1/EAAC1, sem resultados positivos (Veenstra-Vanderweele et al.,
2012) e com o gene CDH2, em que uma variação rara foi encontrada em
probandos, e não em controles (Moya et al., 2013).
Visto a importância de estudar estas variações genômicas para o
processo de descoberta dos genes envolvidos no risco de desenvolver TOC,
este será o primeiro trabalho, até onde vai nosso conhecimento, feito com
uma abordagem de família, que utiliza a técnica de sequenciamento de exon
do genoma inteiro para observar as variações de novo em TOC.
28
3. MATERIAL E MÉTODOS
3.1. Aspectos Éticos
Este estudo esta incluído entre os estudos do Projeto Temático
2005/55628-8, aprovado pela Comissão de Ética para Análise de Projetos
de Pesquisa do HCFMUSP - CAPPesq em 12 de abril de 2006. O presente
estudo de sequenciamento em larga escala de exon do genoma inteiro em
trios de probandos com TOC, foi aprovado com um subprojeto do Projeto
Temático pela CAPPesq em 30/03/2011 n°0592/10 e ocorreu em paralelo
com os estudos já em andamento do PROTOC, no Instituto de Psiquiatria da
Faculdade de Medicina da Universidade de São Paulo.
Pacientes que fazem parte do ambulatório do PROTOC foram
convidados a participação no presente projeto, quando vieram à consulta no
ambulatório. Os questionários clínicos aplicados nestes pacientes para a
avaliação fenotípica já eram previstos nos ensaios clínicos em andamento.
Para maiores detalhes veja: Miguel et al., 2008; Hoexter et al., 2011.
Utilizamos apenas informações geradas a partir destes questionários. Os
familiares (genitores) são voluntários que não apresentam diagnóstico de
transtornos psiquiátricos do eixo I, recrutados para fazer parte dos estudos
de família em andamento e que aceitaram participar das pesquisas.
Todos os indivíduos participantes forneceram consentimento por
escrito, após terem recebido todas as informações relevantes sobre o
projeto.
29
3.2. Amostra
Grupo de casos
Para participação no estudo, utilizamos os seguintes critérios de
inclusão:
(1) idade entre 18 e 65 anos;
(2) diagnóstico de TOC de acordo com os critérios do DSM-IV com início
antes dos 16 anos de idade;
(3) escore mínimo na Escala Yale-Brown Obsessive-Compulsive Scale
(YBOCS) de 16 pontos; devido a este estudo estar associado a estudos de
tratamento, os critérios abaixo foram utilizados para a seleção da amostra,
apesar de não serem relacionados especificamente aos estudos de
genética;
(4) não estar em tratamento adequado no momento e não ter recebido
tratamento adequado previamente por período maior que 6 meses;
(5) aceitar participar de pesquisa clínica com possibilidade de uso de
medicação ou placebo;
(6) aceitar participar de pesquisa envolvida com genética humana e coletar
sangue ou saliva para posterior extração de DNA.
Foram utilizamos os seguintes critérios de exclusão no estudo:
30
(1) qualquer doença médica que apresentasse algum potencial para
invalidar ou tornar difícil a interpretação dos resultados clínicos (por
exemplo, antecedente de traumatismo crânio-encefálico com amnésia pós-
traumática);
(2) uso abusivo, no momento, e/ou dependência de álcool ou outras
substâncias psicoativas;
(3) presença, no momento, de sintomas psicóticos;
(4) risco moderado a grave de suicídio, no momento;
(5) presença de comorbidade psiquiátrica ou clínica que pudesse piorar com
o uso das medicações previstas no ensaio clínico supracitado;
(6) situações de gravidez ou amamentação, ou intenção de engravidar
dentro dos seis meses seguintes ao início do estudo.
3.3. Instrumentos de Avaliação
Todos os pacientes e controles foram submetidos a entrevistas e
aplicação de instrumentos que constam da Apostila de Primeiro Atendimento
(APA), que inclui informações detalhadas sobre dados sociodemográficos
(sexo, idade, naturalidade, estado civil, escolaridade, ocupação e nível
socioeconômico) e clínicos (idade de início, curso do TOC, presença e
gravidade dos sintomas obsessivo-compulsivos, antecedentes psiquiátricos
familiares, resposta a tratamentos, etc.), incluindo-se vários instrumentos
31
estruturados, da Entrevista Clínica Estruturada para o DSM-IV - Transtornos
do Eixo I (SCID-I/P - Structured Clinical Interview for DSM-IV Axis I
Disorders-patient edition) (First et al., 1995).
3.4. Grupo de familiares
Foram contatados familiares (genitores) de pacientes com TOC. Após
aceitarem participar desta pesquisa, tiveram seu sangue coletado para
posterior extração de DNA. Foi aplicada uma apostila de avaliação para
familiares elaborada por Sampaio et al. (2008). Esta apostila contém a
Entrevista Clínica Estruturada para o DSM-IV - Transtornos do Eixo I (SCID-
I/P - Structured Clinical Interview for DSM-IV Axis I Disorders-patient edition)
(First et al., 1995).
3.5. Avaliação laboratorial e Bioinformática
Extração de DNA
As amostras de DNA genômico foram obtidas a partir dos leucócitos do
sangue periférico dos pacientes, controles e familiares. Quinze ml de sangue
venoso foram coletados em tubo de EDTA e submetidos ao método de
extração utilizando-se sal (salting out), de acordo com Miller et al. (1988).
A quantificação e a pureza do DNA extraído foram obtidas por leitura
da absorbância na região do ultravioleta (UV) - comprimentos de onda de
32
260nm (quantificação de ácidos nucleicos) e 280nm (quantificação de
proteínas) em um espectrofotômetro (NanoDrop® ND-1000, Thermo
Scientific). O grau de pureza do DNA foi avaliado com base na razão entre
as leituras de 260nm e 280nm, uma vez que valores iguais ou superiores a
1,8 para essa relação sugerem que o DNA está essencialmente puro e
passível de ser usado na maioria dos procedimentos de manipulação
genética. A média da razão de 230nm/260nm foi 1,8 e da razão de
260nm/280nm foi 2,0. A integridade do DNA das amostras foi avaliada por
eletroforese em gel de agarose preparado com tampão TAE 1X (Tris 40mM;
Ácido Acético Gacial 20mM; EDTA 1mM; pH 8,0), contendo brometo de
etídio 1mg/ml (Sigma®, St. Louis, MO, EUA) com um marcador de peso
molecular de 100 pares de base.
3.6. Sequenciamento de exons do genoma inteiro
Cabe informar que todas as referências bibliográficas utilizadas na
descrição dos trabalhos que utilizam a metodologia de sequenciamento de
nucleotídeos em escala de exons do genoma inteiro, em psiquiatria, estão
na língua inglesa devido à ausência de trabalhos na língua portuguesa na
área. Para a busca de tradução dos termos: bridge amplification, target,
deep sequencing, read sequencing, trimmed, missense variation, single
nuleotide variation, broker gene, bridge gene, betweenness, utilizamos o
sistema de descritores em ciências da saúde (Decs: http://decs.bvs.br/), que
foi criado pela Biblioteca Regional de Medicina (BIREME). Estes termos não
33
estão no decs, mas apenas no Medical Subject Headings (MesH) da U.S
National Library of Medicine (NLM), a partir de que o decs foi desenvolvido,
e não têm correspondentes em português. Desta forma, eles foram escritos
nesta tese na língua inglesa, com destaque em itálico.
É nosso intuito propor a tradução dos termos MesH e decs para a
língua portuguesa. Para tanto, será encaminhada sugestão de tradução
destes termos achados na literatura, com o aval de três especialistas
brasileiros na área, para a BIRENE/OPAS, que oficialmente faz a tradução
para o português.
Pelo fato de provirem da língua inglesa os termos utilizados na
denominação das técnicas de sequenciamento de exoma, alinhamento e
identificação de variantes, além dos de componentes da rede de interação
entre proteínas, de suas características e de ferramentas de análises, e por
não possuírem muitos deles denominação adequada na língua portuguesa,
estão sendo utilizadas no presente trabalho em ambas as línguas, a fim de
evitar que seu significado seja alterado.
Após selecionar 20 trios de probandos com TOC esporádico e extraído
o DNA de cada indivíduo, foi realizado o experimento de sequenciamento de
exoma, que será descrito a seguir.
Captura e sequenciamento
A captura do exoma, o sequenciamento e a detecção das variantes
foram realizados no centro de análises genômicas da Universidade Yale
34
(Center for Genomic analysis – YCGA). Seguimos o protocolo de captura,
sequenciamento e detecção de variantes do genoma feito no artigo
recentemente publicado pelo grupo do Prof. Matthew W State (Sanders,
Murtha et al., 2012). A seguir, descreveremos estes métodos.
As amostras de DNA de sangue periférico foram preparadas, isto é,
enriquecidas de exons e hibridizadas utilizando-se o array NimbleGen
SeqCap EZ Exome (v2.0; Roche NimbleGen, Madison, WI, USA), com
targets de 45Mbp. O DNA enriquecido de exons foi sequenciado com
utilização da plataforma da Illumina HiSeq 2000 (Illumina, San Diego, CA).
Foi feito um sequenciamento de “pool multiplex” (agrupamento de múltiplos
indivíduos), isto é, foram sequenciadas quatro amostras por linha,
colocando-se probando e genitores juntos, quando possível.
O sequenciamento segue diversos passos descritos detalhadamente
na Figura 1. Resumidamente, existem 12 passos que compreendem a
preparação da amostra de DNA; o primeiro passo é a fragmentação do DNA
e a ligação de adaptadores às extremidades destes fragmentos de DNA.
Estes fragmentos são amplificados por ciclos de PCR. Os passos que
seguem a preparação são denominados cluster generation by bridge
amplification (geração de grupos por amplificação em ponte), que é a
amplificação dos fragmentos na plataforma (flow cell) onde há milhares de
canais com oligonucleotídeos de fita simples com sequências similares aos
adaptadores ligados aos fragmentos de DNA. Após a ligação do adaptador
aos fragmentos, estes são expostos a reagentes para a amplificação
baseada na reação da polimerase. A amplificação é feita em forma de
35
pontes. Repetidas desnaturações e extensões resultam em milhares de
moléculas de fita simples ao longo da flow cell (célula de fluxo) em forma de
agrupamento. Estes milhares de agrupamentos únicos de milhares de
moléculas são sequenciados. O primeiro ciclo de sequenciamento consiste
na incorporação de nucleotídeos com fluorescência, seguido de emissão de
laser de alta resolução para a leitura da primeira base do agrupamento
(clustering). Este ciclo é repetido para cada leitura de cada base dos
fragmentos. A identificação base é feita com auxílio de um algoritmo que faz
a transformação do sinal de luz em nucleotídeos (www.illumina.com.br).
Após esta etapa, as sequências, denominadas reads (“lidos”) (no nosso
experimento estas sequências têm tamanho de 74bp e são de dupla fita),
foram analisadas quanto a qualidades métricas do sequenciamento,
alinhadas em um genoma de referência, e as variações foram identificadas.
Estes passos estão descritos na Figura 1, a seguir.
36
37
Figura 1: Etapas do sequenciamento, utilizando a tecnologia de sequenciamento de alta performance (high-performance sequencing - HiSeq) da empresa Illumina.
Adaptada do website da Illumina (www.illumina.com)
38
Detecção das variações
Sequências lidas a partir das duas extremidades (Reads – paired-end)
de 74 bp sequenciadas foram analisadas quanto à qualidade métrica do
sequenciamento pelo protocolo denominado CASAVA, desenvolvido pela
Illumina, o qual também estimou a probabilidade de erro de cada base
identificada pelo programa Phred-like (Ewing e Green, 1998). Após esta
verificação de qualidade da técnica, estes reads foram alinhadas no genoma
inteiro de referência hg19/NCBI 36 usando-se o alinhamento Burrows-
Wheeler (BWA) (Li e Durbin, 2010). Os reads alinhadas foram aparadas
(trimmed), com os alvos (targets) do chip de exoma Nimblegen, utilizando-se
um programa desenvolvido no laboratório do Prof. Dr. Matthew Sate. Se o
read tivesse sobreposição de pelo menos 1 bp com a sonda (probe) do chip
Nimblegen, era considerada um “alvo” (target). Este passo é importante, pois
garante que os reads sejam sequências de exon do genoma. Todas as
sequências que não preencheram este critério foram descartadas. Os dados
do alinhamento foram convertidos em um formato binário para serem
analisados pela ferramenta SAMtool, que alinha a sequência e identifica
seus nucleotídeos. Utilizando esta ferramenta, foram removidas as
sequências que aparecem em duplicatas (Li, Handsaker et al., 2009) e
identificadas as variações pontuais no genoma, conhecidas como variações
de um nucleotídeo (single nuleotide variation -SNVs). As SNVs também
foram analisadas usando-se o banco de dados UCSC Genome Browser
(www.genoma.ucsc.edu).
39
Após esta etapa de identificação das variantes, as variantes
identificadas passam a ser olhadas dentro da família, para observar as
variações de novo.
Busca de variações de novo, variações raras e variações novas
Consideraram-se critérios de seleção das variações de novo aquelas
variações com cobertura maior ou igual a 20 vezes - isto é, 20 sequências
representando cada base em todos os membros da família - e, além disso,
ser igual ou maior que 8 vezes para o probando a cobertura do nucleotídeo
em questão (aquele onde ocorreu a troca). Finalmente, este nucleotídeo não
poderia estar presente nos genitores. As variantes também foram filtradas
pelo escore de pelo menos 15 pelo programa Phred-like, que estima a
probabilidade de erro de cada base identificada (Ewing e Green, 1998).
Após esta etapa, selecionamos como variações de novo para as
nossas análises apenas as variações consideradas não sinônimas, isto é,
aquelas que modificam a expressão da proteína.
Todas as variações não sinônimas identificadas no sequenciamento
foram validadas com o emprego de PCR (reação de cadeia da polimerase) e
sequenciamento Sanger para cada membro das famílias nas quais a
variação foi identificada. Os primers foram desenhados utilizando-se o
programa Primer 3, que permite a amplificação de regiões onde estas
variações estão localizadas. Os oligonucleotídeos foram sintetizados pelo
Integrate DNA Tecnologies (IDT http://www.idtdn.com), e a região foi
amplificada pelo método de PCR em ambos os genitores e no probando.
40
Após a amplificação, o fragmento foi observado em gel de eletroforese. Os
fragmentos foram sequenciados via sequenciamento Sanger. Este
sequenciamento foi realizado no laboratório Yale Keck
(http://medicine.yale.edu/keck). As sequências foram amplificadas no sentido
senso (forward) e no sentido antisenso (reverse).
Foi calculada a taxa de variações não sinônimas por indivíduos,
dividindo-se o total de variações não sinônimas pelo total de probandos
analisados.
Análise de variações raras hereditárias e variações novas hereditárias
Após a análise das variações de novo, observamos as variações raras
e herdadas dos genitores. Para isto, usamos bancos de dados de
sequenciamento da população humana para observar se estas variações já
foram encontradas em outras populações e, caso afirmativo, qual sua
frequência de ocorrência.
Foram utilizados o banco de dados do projeto 1000 genomas
(http://www.1000genomes.org/) e o banco de dados do National Heart, Lung
and Blood Institute GO Exome Sequencing Project, que sequenciou 6512
indivíduos (http://evs.gs.washington.edu/). As variantes foram consideradas
raras quando a frequência do menor alelo (MAF) foi menor ou igual a 0.5%
em um destes dois bancos (Tennessen, Bigham et al., 2012). Todas as
variantes não encontradas nesses bancos foram consideradas novas e
podem ser específicas da população brasileira. Como ainda não temos um
banco de dados de sequenciamento da população brasileira, fizemos uma
41
análise de processos biológicos considerando apenas estas variações
novas, que não sabemos ao certo se são raras ou não.
Observação da patogenicidade das variações de novo não sinônimas
Existem bancos de dados que estudam a evolução das proteínas, o
quanto elas são conservadas ou não ao longo das espécies. Acredita-se que
mutações em determinadas regiões que formam a proteína, isto é, em
determinado exon, podem ter um efeito deletério e patogênico (Grantham,
1974). Sendo assim, as variantes de novo não sinônimas foram ordenadas
(rank) quanto a seu efeito na estrutura e função da proteína expressa pelo
gene em questão. Para esta análise foi usado o escore Grantham
(Grantham, 1974). Este escore mede se as variações estão em locais
conservados da proteína ao longo da evolução. As variações foram
consideradas patogênicas se apresentassem o escore Grantham maior que
85 (O'roak et al., 2012). Também foi observado se estas variações são
sindrômicas ou não. Esta análise foi feita com utilização de informações do
banco de dados Online Mendelian Inheritance in Man (OMIM:
www.ncbi.nlm.nih.gov/omim/) e dados do PubMed (www.ncbi.com.br).
3.7. Redes de interação proteína-proteína (IPP) das variações de novo
(DNM)
Como foi apresentado anteriormente, as doenças complexas são
poligênicas, isto é, mais de um gene é fator de risco para o seu
42
aparecimento (State et al., 2012). Esses genes podem interagir, como têm
mostrado os trabalhos de interação gene-gene. Porém, para esse tipo de
estudo é necessário um grande número de amostras e de genes (Cordell,
2009). Outra forma de estudar as interações que ocorrem entre genes é
observar seu produto, isto é, as proteínas.
Quando olhamos o funcionamento das células é possível observar que
nelas são expressas de centenas a milhares de proteínas e outras
macromoléculas, mediando milhares de interações físicas, que podem ser
interações entre proteínas, entre proteína e DNA, proteínas e RNA que
possibilitam o funcionamento da maquinaria celular (Vidal, 2005). Desta
forma, é essencial considerar as proteínas como redes de interações que
atuam de forma integrada formando um sistema complexo que rege diversas
funções celulares (Barabási e Oltvai, 2004).
O conceito de interatoma, definido como um conjunto de interações
físicas mediadas por proteínas, e o surgimento de banco de dados que
armazenam estas informações possibilitaram os estudos de complexos
sistemas de redes moleculares. Uma rede, ou grafo, é uma ferramenta
matemática usada para representar um grupo de elementos que interagem
entre si. Estas interações ocorrem em interações de pares. No caso de
redes biológicas, os componentes são as proteínas (chamadas também de
'nós da rede'), que são ligadas a outros nós por “arestas” ou “linhas”, as
quais representam a interação (Bell e Lewitter, 2006). Cada linha é
representada por uma interação física entre dois componentes e pode ser
direcionada - com especificação de um ponto de partida e um ponto alvo
43
final - ou não direcionada - que representa interações mútuas, como o que
ocorre com as proteínas (Barabási e Oltvai, 2004; Albert, 2005). A análise de
redes biológicas é uma maneira efetiva de descrever proteínas como grupos
de moléculas inter-relacionadas. Existem ferramentas, tais como o programa
Cytoscape (http://cytoscape.org/), que auxiliam nas análises de visualização
e permitem explorar uma série de atributos métricos da rede (Bell e Lewitter,
2006). Além disso, há uma série de algoritmos para criar layouts gráficos
dos dados (Saito et al., 2012). Levando-se em conta este contexto e
tentando-se observar as interações entre os produtos dos genes (proteína)
associados com estas variações raras de novo e que afetam a função da
proteína, foi gerada uma rede de interação proteína-proteína com a lista
destes genes com variações não sinônimas de novo. Qualquer referência a
genes na rede IPP e análises de processos biológicos se refere à interação
física entre seus produtos, as proteínas (Gandhi et al., 2006).
Para criar a rede e atributos, foi utilizada a ferramenta da internet
Interatoma de Alvos de Drogas - beta (Drug-Tagets Interactome - beta) que
integra três bancos de dados de interatoma (HPRD - Human Protein
Reference Database, MINT - The Molecular Interaction Database e the
IntAct Molecular Interaction Database) e tem conexão direta com o programa
Cytoscape (http://bioinfo.lbhc.hcancer.org.br/).
Calculamos as medidas de centralidade da rede para conseguir
classificar os genes de maior importância, segundo sua conectividade com
outros componentes da rede ou com módulos de componentes conectados
44
na rede. A seguir, resumiremos as principais medidas de centralidade de
uma rede.
Os nós de uma rede podem ser caracterizados pelo número de
conexões (linhas) que possuem (nós adjacentes a ele), sendo esta
propriedade denominada grau do nó (node degree) (Gandhi et al., 2006).
Apesar de o grau do nó caracterizá-lo individualmente, é possível usar o
grau de distribuição (degree distribution) para quantificar a diversidade da
rede como um todo. O grau de distribuição de várias redes (como, por
exemplo, a internet ou redes metabólicas) segue uma distribuição conhecida
como lei da potenciação (power law). Esta distribuição indica que existe
grande diversidade nos graus dos nós e que não há nós típicos na rede que
possam ser usados para caracterizar todos os outros nós, isto é, a maioria
das proteínas interage com poucas proteínas, apenas algumas interagem
com diversas (Barabási e Oltvai, 2004; Bell e Lewitter, 2006). Estas
proteínas que interagem com diversas proteínas são chamadas de hubs e
são mais essenciais na rede (Albert, 2005; Bell e Lewitter, 2006).
A aderência da vizinhança de um nó i é geralmente quantificada pelo
coeficiente de agrupamento (clustering coefficient) e é definida como a razão
entre o número de conexões ligadas a nós adjacentes ao nó i e o número
total possível de conexões entre eles (Doncheva et al., 2012). O coeficiente
de agrupamento quantificará o quanto a vizinhança está interconectada. As
redes de interação proteica apresentam alto grau de coeficiente de
agrupamento, o que indica alto nível de aderência e redundância. A medida
denominada centralidade dos nós ponte (bridging centrality) mede qual nó
45
ou qual linha se localiza entre regiões bem conectadas da rede (Cai et al.,
2010).
A distância entre dois nós da rede é definida como o número de
conexões que os conecta. A medida métrica denominada caminhos entre
nós (betweenness) de uma proteína é o número de caminhos mais curtos
entre duas proteínas, isto é, o menor número de conexões entre proteínas
selecionadas. É uma medida global de centralidade na rede (Kim et al.,
2007).
Estas medidas de centralidade topológicas foram usadas para
identificar os hubs da rede, as proteínas com muitas conexões, corretores
(brokers) – são aquelas com alto grau de conectores e que conectam várias
proteínas que não seriam conectadas se o broker não estivesse na rede. Já
os nós pontes (bridges) das redes – são aquelas proteínas que conectam
cluster (agrupamentos) de nós bem conectados na rede (Cai et al., 2010).
Nós usamos o percentil 95% como um limiar da distribuição para selecionar
os melhores brokers e bridges da rede.
Como as redes de interação proteína-proteína são construídas com
base na interação de dados previamente publicados, existe um viés em
relação a representar na rede aqueles genes que foram mais estudados e
não aqueles que de fato estão associados com a doença. Desta forma, é
importante determinar se os genes que foram identificados como os
melhores brokers e bridges estão associados com a lista de genes inicial da
rede - que, no caso deste estudo, são aqueles com variações de novo
46
encontradas nos probandos com TOC e que podem estar associados com o
risco de desenvolver a doença. Além disso, verificar se estes genes
simplesmente apresentem alta probabilidade de ocorrer em qualquer rede
aleatória que se inicie com uma lista de genes aleatória, sendo esta lista
inicial composta do mesmo número de genes que a lista deste trabalho.
Para detectar se tal viés altera o resultado, fizemos 1000 simulações de
redes de IPP que começam, cada vez, com 9 genes aleatórios.
3.8. Priorização dos genes com variações de novo (DNM) relacionados
a genes candidatos de TOC
Programa DADA - algoritmo de grau informativo para redes baseado na
priorização de genes relacionado com doenças (Degree-Aware Algorithms
for Network-Based Disease Gene Prioritization- DADA)
Para investigar a relevância desta rede para o TOC, foi utilizando um
programa denominado algoritmo de grau informativo para redes baseado na
priorização de genes relacionado com doenças DADA - Degree-Aware
Algorithms for Network-Based Disease Gene Prioritization (Erten, et al.,
2011) que prioriza uma lista de genes candidatos levando em conta aqueles
que já se mostram associados ao TOC. Para esta análise, foi selecionada
uma lista de genes associados com TOC de uma meta-análise
recentemente publicada (Taylor, 2012). A lista de genes candidatos a ser
ranqueada foi a lista de genes com variações de novo não sinônimas
observadas neste estudo. É importante enfatizar que este ranque
47
(ordenamento) não está relacionado à causalidade de TOC, e sim à relação
destes genes com outros já associados com TOC, usando o interatoma
humano como base biológica para conexões entre produtos gênicos.
Processos biológicos dos genes com variações de novo (DNM)
Para investigar se a lista de genes identificados na rede IPP apresenta
algum processo biológico relevante para o TOC, os processos biológicos
foram analisados usando-se o programa de analises de processos
biológicos (Ingenuity Pathway Analysis - IPA, version 9.0, Ingenuity System,
http://www.ingenuity.com).
3.9. Processos biológicos dos genes com variações raras hereditárias
e variações novas hereditárias
Consultamos quais os processos e vias biológicas em que estes genes
com variações raras hereditárias e de variações novas hereditárias são mais
representados, utilizando como comparação os resultados de processos e
vias biológicas da banco de dados programa Ingenuity Pathway Analysis
(IPA, version 9.0, Ingenuity System, http://www.ingenuity.com). O programa
realiza um teste estatístico de Fisher para comparar a probabilidade de
ocorrências de determinado processo e via biológicos e apresenta os
processos e vias biológicos que foram mais representadas nos genes com
variações de novo em comparação com dados compostos de milhares de
genes que interagem entre si.
48
4. RESULTADOS
4.1. Característica da amostra
A amostra inicial compreendia 20 trios. Após o sequenciamento e a
predição das variações, encontramos um excessivo número de variações de
novo (DNM) em três trios sequenciados. Foi feita uma análise de
descendência familiar (IBD - identity-by-descent) nas famílias para observar
possível erro de identificação familial das amostras de DNA. Foram
selecionados 297 SNPs informativos para verificar a relação familiar entre as
amostras, utilizando-se o programa Plink (http://pngu.mgh.harvard.edu/). A
análise revelou erro de paternidade em três trios. Assim, os mesmos foram
excluídos da amostra total
Portanto, a amostra final compreendeu 17 trios, sendo 17 probandos
com TOC - 11 homens e 6 mulheres - e seus pais, que não apresentavam
diagnóstico de transtornos psiquiátricos do eixo I, avaliados a partir da
entrevista de famílias. A idade média de início dos sintomas de TOC foi 8,57
anos (dp= 2,72), e a média da gravidade dos sintomas de TOC foi 26,12
(desvio padrão= 5.70). Em relação ao número de comorbidades
apresentadas por cada probando, todos os probandos, exceto um,
apresentaram pelo menos um tipo de comorbidade, de acordo com os
instrumentos de avaliação da APA apresentados em métodos. A média das
comorbidades por probando foi 2,94 (desvio padrão= 1,86). A Tabela 2
descreve as comorbidades psiquiátricas, agrupadas segundo definições
mais abrangentes, apresentadas pelos probandos.
49
Tabela 2: Agrupamento dos transtornos psiquiátricos segundo definições mais abrangentes
Definições abrangentes Transtornos
Ansiedade de Separação Ansiedade Separação
TDAH Transtorno Déficit de Atenção e Hiperatividade
T. Tiques Síndrome de Tourette; T. de Tiques Motor ou Vocal Crônico
T. Ansiosos T. Pânico (com e sem Agorafobia); T. Ansiedade Generalizada; Fobia Simples; Fobia Social
TEPT Transtorno de Estresse Pós-Traumático
T. Espectro OC Tricotilomania; Dermatotilexomania (Skin Picking); T. Dismórfico Corporal
T. Controle- Impulsos Comprar Compulsivo; Jogo Patológico; Piromania; Abuso Internet; Abuso Videogame; Cleptomania; T. Sexual Não-Parafílico
T. Alimentares Anorexia Nervosa; Bulimia Nervosa; T. Compulsão Alimentar Periódica
A. Substâncias Abuso e Dependência de Álcool, Maconha, Cocaína, Estimulantes, Ópio, Alucinógenos
T. Somatoformes T. Somatoforme; T. Doloroso; T. Hipocondríaco
T. Humor T. Unipolar; T. Bipolar I; T. Bipolar II
T.= transtorno; TDAH= transtorno de déficit de atenção com hiperatividade; TEPT= transtorno de estresse pós-traumático; OC= obsessivo-compulsivo; A.=abuso
Os probandos apresentaram comorbidades dos grupos de transtornos
de tiques, de ansiosos, de déficit de atenção com hiperatividade (TDHA), de
estresse pós-traumático (TEPT), do espectro obsessivo, alimentares e
abuso de substâncias. Estes dados, juntamente com os dados demográficos
e dados de história familiar estão sumarizados na Tabela 3,
50
Tabela 3: Características demográficas e clínicas dos probandos com transtorno obsessivo-compulsivo (TOC)
ID Sexo
Idade do início dos sintomas Y-BOCS
História Médica Comorbidades Psiquiátricas (anos) escore Total
TOC0033 M 7 37 NA Tourette, fobia social, automutilação, TDM, TAG, TDC, TEPT
TOC0163 M 11 22 Enxaqueca Tiques, fobia Social, fobia específica, TAG, dermatilexoamania
TOC0187 F 12 24 NA TDM, fobia social, dermatilexoamania, pânico com agorafobia
TOC0189 M 8 30 NA Transtorno distímico TOC0200 M 12 21 NA TDM
TOC0216 F 8 25 NA MDD, transtorno de abuso de álcool, dermatilexoamania, Agorofobia sem pânico, TDC, transtorno alimentar
TOC0322 F 7 19 NA NA TOC0477 M 5 28 NA TAG, TDM
TOC1291 M 14 28 Paralisia cerebral, tremores nas mãos, asma, bronquite
Tourette, agorafobia sem Pânico, fobia específica, TAG
TOC1353 F 5 17 NA Fobia específica, TDC, dermatilexoamania, TAG, automutilação
TOC1398 F 7 26 Enxaqueca No TOC1446 M 10 20 NA Tiques, dermatilexoamania, TDM TOC1759 M 10 30 NA TDM, TDAH, TAG TOC1765 F 6 29 NA TAG, dermatilexoamania, TDAH TOC1814 M 5 33 Trauma TAG, TEPT, TDM, TDAH TOC0485 M 10 34 NA Fobia social, TDM TOC0433 M 8 21 NA Tourette
Y-BOCS, Yale-Brown Escala de gravidade de sintomas obsessivo-compulsivos; TOC, transtorno obsessivo compulsivo; TDM, transtorno depressivo maior; TAG, ansiedade generalizada; TDC, transtorno dismórfico corporal; TEPT, transtorno do estresse pós-traumático; TDAH, transtorno do déficit de atenção e hiperatividade
51
4.2. Resultados do Sequenciamento
Em média, 111,1% de reads (sequências lidas) foram sequenciadas, e
98,5% de todas as sequências foram alinhadas com sucesso no genoma de
referência. Em média, 84,4% das reads foram aparadas (trimmed) de acordo
com os alvos do chip de exoma Nimblegen. A captura de exons foi efetiva,
em média 94,5% das sequências foram cobertas por 8 ou mais reads
(fenômeno denominado deep cover). Na Tabela 4 é possível observar
informações tais como o total de sequências em milhões de pares de bases,
a porcentagem de sequências duplicadas que foram descartadas, a média
total de sequências com cobertura em amplitude de 4, 8 e 20 vezes, assim
como a quantidade total de sequências codificadoras analisadas.
Tabela 4: Resumo dos dados de sequenciamento dos exons dos 17 trios com TOC (n=51 amostras)
Variável Média (95% IC)
Total sequências (milhões) 111,1(±0,3)
% de sequências alinhadas 98,5% (±0,01%)
% de sequências alvo 84,4% (±0,03%)
% sequências duplicadas 6,23% (±0,02%)
Cobertura média 80,8x (±0,2x)
% de sequência alvo com 4× 97,3% (±0,02%)
% de sequência alvo com 8× 94,5% (±0,04%)
% de sequência alvo com 20× 80,6% (±0,08%)
Taxa de erro de pares de base 0,3% (±0,0006%)
Razão transição/transversão 2,61 (±0,004%)
dbSNP132, (National Center for Biotechnology Information) Single Nucleotide Polymorphism Database, v132
52
4.3. Identificação das Variações de novo (DNM)
Como foi mostrado, em média, 98,5% das sequências geradas por
cada indivíduo foram alinhadas corretamente no genoma de referência e
94,5% dos alvos foram identificados por ≥ 8 reads. Somente os nucleotídeos
sequenciados identificados por ≥ 20 reads em toda a família (trio) foram
considerados na detecção das DNM.
Em 80,6% de todas as bases sequenciadas verificamos se as
variações eram de novo. Neste estudo consideramos apenas as DNM não
sinônimas (nonsense e missense) para a validação por sequenciamento
Sanger e na análise de rede.
A taxa de ocorrência de variação de novo não siônima por indivíduo foi
0,59. Isto é, o número de variações não sinônimas por probando é 0,59.
As etapas seguintes ao resultado da confirmação das variações, ou
seja, patogenicidade da variação e rede de interação proteína – proteína
(IPP), foram feitas com estas variações.
Nos anexos A, B, C e D, apresentamos uma análise preliminar feita
com todas as variações consideradas codificadoras (que estão dentro do
exon). Esta análise é preliminar, pois não foram feitas as validações das
variantes identificadas por métodos de bioinformática. Porém, como
apresentamos a seguir, a porcentagem de predição foi confirmada em
90,9%. Desta forma, as análises preliminares podem ser consideradas
altamente confiáveis.
53
Confirmação das variações
Foram preditas 11 DNM. Dez foram confirmadas pelo sequenciamento
Sanger. A porcentagem de confirmação foi de 90,9%.
Dentre as dez DNM, uma foi nonsense e nove foram missense.
Somente uma destas DNM não ocorreu em gene que, sabidamente, tenha
expressão no cérebro. Duas delas também foram associadas com
processos de sinaptogênese (Tabela 5). Nenhuma destas variações foi
reportada no banco de dados do NCBI Single Nucleotide Polymorphism
Database, v132 (http://www.ncbi.nlm.nih.gov/snp) sendo, assim, consideradas
novas. Na Tabela 5, descrevemos estas variações.
54
Tabela 5: Sumário das variações de novo (DNM) encontradas em probandos com transtorno obsessivo-compulsivo (TOC), a partir do sequenciamento em larga escala de última geração, e validadas pelo método sequenciamento Sanger
Indivíduo Cr Posição (hg19) Gene
Expresso
Alelo
Refe-rência
Alelo Mutan-te
Zigosi-dade
Base mutante
1 Tipo Mutação
Aminoácido substituição
Phred score
Grantham Score
Cére-bro
Sinapse (0-40)
TOC129101 2 219894325 CCDC108 Sim Não C T Het 23 Substituição Missense E484K 28 56
TOC129101 4 102993556 BANK1 Sim Não A T Het 49 Substituição Missense K633M 30 95
TOC129101 5 16783451 MYO10 Sim Não C T Het 48 Substituição Missense E199K 28 56
TOC139801 1 207755290 CR1 Não Não T A Het 39 Substituição Missense S1748R 37 110
TOC175901 16 71807129 AP1G1 Sim Sim T C Het 27 Substituição Missense K155E 25 56
TOC016301 15 75891017 SNUPN Sim Não A C Het 19 Substituição Missense D255E 27 45
TOC018901 3 10380029 ATP2B2 Sim Sim A G Het 15 Substituição Missense I1084T 31 89
TOC181401 10 28971325 BAMBI Sim Não G A Het 25 Substituição Missense V260I 36 29
TOC032201 8 87423972 WWP1 Sim Sim A G Het 39 Substituição Missense I310M 37 10
TOC032201 10 50678378 ERCC6 Sim Não T A Het 42 Substituição Nonsense K1210X 29 215
Cr, cromossomo; Het, heterozigoto
1Leitura da base mutante
2 Base mutante/Total de leitura das bases (cover deep). O Score Phred é um escore relacionado com a probabilidade de erro de cada base identificada. Um escore
igual ou maior que 30 é considerado de probabilidade de erro de 1/1000 erros na identificação da base (nucleotídeo). Os valores deste escore para as variações que foram validadas são muito próximos de 30, apesar de o limiar utilizado neste estudo ter sido um escore ≥15, segundo análises da qualidade do sequenciamento e da porcentagem da taxa de erros de identificação de bases (Sanders, Murtha et al., 2012). O Grantham Score é um escore que identifica quanto uma modificação em
determinada região do exon é deletéria para a função da proteína, isto é, se a variação ocorrer em sítios da proteína considerados conservados ao longo da evolução, ela é considerada deletéria. Escores acima de 85 são considerados muito deletérios para o funcionamento da proteína (O'roak, Vives et al., 2012).
55
Observação da patogenicidade das DNM não-sinônimas
Baseados no escore Grantham ≥ 85, identificamos quatro genes (CR1,
BANK1, ATP2B2 e ERCC6) com escore maior ou igual a 85. Dentre estes, os
genes ATP2B2 e ERCC6 já foram descritos como associados a síndromes no
OMIM. O gene ERCC6 é associado com a Síndrome de Cockayne, uma
síndrome rara autossômica recessiva congênita. E o gene ATP2B2 é associado
com uma síndrome de surdez, também autossômica recessiva. Estas duas
síndromes têm números de OMIM 601386 (deafness) e 609413 (Cockayne).
Até o presente momento, nenhum trabalho no PubMed reporta alguma
associação destas síndromes com TOC.
4.4. Redes de interação proteína-proteína (IPP) das variações de novo
(DNM)
Dez genes com DNM validadas foram incluídos na análise da rede IPP.
Um destes dez genes não foi encontrado no interatoma e foi excluído da
análise. Nove genes formaram a lista de genes semente (seed list), e a partir
desta lista iniciamos a análise de redes, usando os dados do interatoma. A
rede apresentou 129 genes que interagem. Foram calculadas as medidas de
centralidade da rede para cada um desses genes. A partir dessas medidas
foram calculados os melhores brokers e bridges da rede, isto é, aqueles com
56
os valores dentro do percentil 5% da distribuição dos dados, como mostra a
Figura 3.
Figura 2: Exemplo de planilha de análise métrica da rede (interação proteína-proteína)
Como mostra a Figura 2, é possível observar a lista dos nós da rede, se
os nós fazem parte da lista semente ou não, e quantas conexões cada nó
(proteína) apresenta. Na coluna H está representado o valor dos brokering para
cada gene. É com esses que se calcula o percentil dos dados e se definem os
melhores brokers. De forma semelhante, analisamos quais são os genes
bridges. As colunas que seguem na tabela são: nós (proteínas), grau do nó
(conexões das proteínas); grau do nó normalizado (conexões da proteína
normalizada; betwenness (caminhos mais curtos entre duas proteínas),
betwenness normalizado (caminhos mais curtos entre duas proteínas
57
normalizado); agrupamento; brokering (corretores) e bridging centralidade (nós
que se localizam entre regiões bem conectadas da rede).
Figura 3: Representação das melhores proteínas corretoras (brokers) e proteínas ponte (bridges), considerando-se um percentil de 95% da distribuição dos dados
A rede apresentou um total de 5 brokers e 6 bridges (ver Figura 3). Três
dos genes da lista semente foram classificados como brokers. Estes genes
são: WWP1, A1P1G1 e CR1 e estão representados na Figura 4 a seguir.
58
Figura 4: Rede de interação proteína-proteína (IPP)
Nove dos dez genes da lista inicial com variações de novo não sinônimas
encontradas em probandos com TOC estão conectados na rede IPP (Figura
4). Oito desses genes são expressos no cérebro humano e dois estão
envolvidos com sinaptogênese. As proteínas com um círculo verde são os
genes da lista inicial. Como usamos o interatoma para fazer a rede, os
símbolos representados nas redes são relacionados a proteínas. Estas
proteínas são expressas pelos genes de interesse neste estudo. Os nós da
rede são proteínas são mostradas na rede por círculos com o nome de cada
proteína de referência). As linhas da rede são também chamadas de arestas, e
são elas que mostram a interação entre os nós (proteínas) da rede. As
59
proteínas (genes) em rosa são as consideradas brokers, isto é, aquelas com
alto grau de conectores. Estas conexões são feitas entre proteínas que não
seriam conectadas se não existisse a broker. Já as bridges, que são as
proteínas consideradas pontes, conectam agrupamentos de nós bem
conectados. Elas são representadas pela cor azul.
O resultado das 1000 simulações sugere que apenas o gene DLG4
apareceu mais do que 20 vezes em redes aleatórias. Este valor foi
estabelecido como um valor de corte, segundo a distribuição dos dados da
rede nas simulações. Achados que ocorreram menos do que 20 vezes podem
ser achados aleatórios, isto é, um gene pode ser representativo nos processos
de interação de genes no interatoma, independentemente de estar associado
com o transtorno estudado.
Depois de construir a rede, foi usado um algoritmo para observar a
importância destes achados na rede de IPP, considerando-se uma lista de
genes associados com o risco de desenvolver TOC.
4.5. Programa DADA – priorização de genes candidatos
Para buscar uma associação dos genes com variações não sinônimas com
genes candidatos para TOC fizemos a analise utilizando o programa DADA
Os resultados do programa ordenaram a lista de genes semente em relação à
lista de genes candidatos da meta-análise de Taylor (Taylor, 2012). Os dois
genes que encabeçam a lista foram WWP1 e ATP2P2 (Tabela 5). É possível
60
observar também na tabela 5 que os genes considerados brokers têm alta
conectividade na rede de IPP.
Tabela 6: Lista de nove genes (proteínas) com mutações de novo (DNM), ordenados pelo algoritmo de grau informativo para redes com base na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA
Genes Ordenação Interação Coeficiente de agrupamento
Componente da rede
Gene (proteína) broker
WWP1 1 26 0.01231 Sim Sim ATP2B2 2 8 0.14286 Sim Não MYO10 3 8 0.00000 Sim Não ERCC6 4 11 0.14545 Sim Não BANK1 5 5 0.10000 Sim Não AP1G1 6 26 0.02154 Sim Sim SNUPN 7 8 0.00000 Sim Não CR1 8 13 0.01282 Sim Sim BAMBI 9 1 0.00000 Sim Não
Genes da rede IPP com DNM não sinônimas ordenados por associação aos genes com valor de p significativo na meta-análise, com sumário de atributos
Foi gerada uma rede com o resultado do programa DADA, para observar
visualmente seus resultados, que mostra a associação entre os genes da lista
de sementes (genes com DNM) e os reportados pela meta-análise de TOC.
Esta rede é o resultado do interatoma da lista de genes sementes de DNM não
sinônimos com o interatoma da lista de genes candidatos (Figura 5).
61
Figura 5: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionados com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com lista de proteínas com mutações de novo (DNM) não sinônimas.
Como mostra a Figura 5, nove proteínas (genes) com DNM não
sinônimas em amarelo e genes (proteínas) com SNPs comuns associados com
o risco de TOC (20 genes) em vermelho. As proteínas consideradas brokers,
isto é, aquelas com alto grau de conectores e com conexão feita entre
proteínas que não seriam conectadas se não existisse a broker, estão em rosa.
As bridges, que são as proteínas consideradas pontes - conectam
agrupamentos de nós bem conectados, estão representadas pela cor azul.
62
4.6. Análise de processos e vias biológicas
Após esta análise de genes e redes, foram feitas análises dos processos
biológicos dos quais eles participam. Foram feitas três análises com listas de
genes diferentes: a primeira, com os genes com DNMs não sinônimas e os
genes que interagem com eles na rede IPP; a segunda, com os genes com
variações consideradas raras, segundo bancos de dados de exoma disponíveis
na web; e a terceira, com os genes com variações novas. A seguir, a descrição
de cada análise.
4.7. Processos biológicos de genes da rede IPP das variações de novo
não sinônimas
Foram analisados 129 genes componentes da rede IPP de variações de
novo não sinônimas com utilização do programa Ingenuity (IPA). A Tabela 7
mostra os processos biológicos que foram associados aos genes em questão.
Alguns desses genes também são brokers (AP1G1, CR1 e CALM1) e bridges
(IL2RG e CR2) da rede IPP, o que reforça o valor da rede e a importância
destes genes na caracterização dos possíveis processos biológicos envolvidos
com o risco de desenvolver TOC.
63
Tabela 7: Análise dos processos biológicos dos 129 genes que integram a rede de interação proteína-proteína IPP), mutações de novo
IPA processos biológicos P-valor Proporção Sequência de referência do gene
Sistema complemento 1.77E-07 6/33 CR1, CD55, C3, C4B, C1QA, CR2
Sinalização CTLA4 do linfócito T citotóxico
5.42E-07 8/95 AP1S1, AP1M2, GRB2, AP1S2, PPP2R2B, CLTC, AP1G1, AP1B1
Sinalização de FGE 1.67E-06 6/48 GRB2, ITPR2, ITPR1, RASA1, PRKCA, EGFR
Sinalização da p70S6K 4.64E-06 8/122 IL2RG, PRKCI, YWHAE, GRB2, PPP2R2B, PRKCA, EGRF
Sinalização da I PI3K dos linfócitos B
5.59E-06 8/128 CALM1, PRKCI, C3, ITPR2, LYN, ITPR1, NFKB1, CR2
Legenda: IPA, Ingenuity Pathway Analysis (programa). CTLA4: antígeno-4 associado ao linfócito T
citotóxico, envolvido com produção de citocinas e imunoglobulinas. FGE: fator de crescimento epidérmico, P7OS6K: Proteínas Quinases S6 Ribossômicas 70-KDa envolvidas na regulação celular I PI3K: enzima fosfatidilinontol-3-cinase envolvidos com a neuroproteção celular. A representação dos processos biológicos é comparada com o banco de dados de milhares de interações entre genes do programa IPA, tendo como base a lista de genes que integram a rede IPP de variações de novo não sinônimas. Os cinco processos biológicos com menores valores de p são apresentados. O processo biológico com realce em
cinza mostra aquele também encontrado na análise de processos biológicos das variações novas. Os genes com realce em cinza são os genes presentes na rede IPP que são classificados como brokers ou bridges.
4.8. Porcessos biológicos das variações raras herdadas e variações
novas herdadas
Variações raras herdadas
Foram selecionados 27 genes que apresentavam variações com
frequência de ocorrência de 0,5% (banco de dados do sequenciamento dos
6512 genomas e 1000 genomas), já descritos em Métodos. Na Tabela 8 é
possível observar os processos biológicos associados aos genes nos quais se
encontram variações raras herdadas.
64
Tabela 8: Análise dos processos biológicos dos 27 genes com variações raras (frequência de ocorrência 0,5%) em probando com transtorno obsessivo-compulsivo (TOC)
IPA processos biológicos P-valor Proporção Sequência de referência do gene
Reparo da quebra da dupla fita de DNA pela recombinação homóloga
1.67E-02 1/17 ATRX
Biossíntese de Leucotrienos 1,67E-02 1/27 GGT1
Ciclo do Gama Glutamil 1.67E-06 1/27 GGT1
Legenda. IPA, Ingenuity Pathway Analysis (programa). Leucotrienos = lipídios que participam do
processo de inflamação crônica. A representação dos processos biológicos é comparada com o banco de dados de milhares de interações entre genes do programa IPA, tendo como base a lista de genes com variações raras sequenciadas neste estudo e presentes em probandos com TOC. Os três processos biológicos com menores valores de p são apresentados. O processo biológico com realce em cinza
mostra aquele também encontrado na análise de processos biológicos das variações novas. A via do Gama Glutamil esta representada no anexo E.
Variações novas
Foram selecionados 335 genes que apresentaram pelo menos uma variação
considerada nova. Consideramos novas aquelas variações que não estavam
presentes nos 1000 genomas, nem no banco de dados do sequenciamento de
6512 indivíduos, nem no site do NCBI.
Os processos biológicos associados aos genes em que se encontraram SNVs
estão representados na Tabela 9.
Tabela 9: Análise dos processos biológicos dos 470 genes com variações de troca de um nucleotídeo (SNVs) novas, em probandos com transtorno obsessivo-compulsivo (TOC)
IPA processos biológicos Valor de P- Proporção Identificação do gene
Reparo da quebra da dupla fita de DNA pela recombinação homóloga
1.37E-02 2/17 POLA1, ATRX
Sinalização celular envolvida com a doença do enxerto-versus-hospedeiro
2.16E-02 3/50 TRB, KIR2DL3, HLA-DRB5
Comunicação entre células dendríticas e células exterminadoras naturais (células NK)
2.84E-02 4/95 CSF2RB, KIR2DL3, KIR2DL4/LOC100287534,HLA-DRB5
Sinalização CTLA4 do linfócito T citotóxico
3.16E-02 4/98 TRB, CLTCL1, AP1B1, HLA-DRB5
Sinalização do Nur77 no Linfócito T 3.43E-02 3/63 TRB, MAPK7, HLA-DRB5
65
Legenda: IPA, Ingenuity Pathway Analysis (programa) TOC, transtorno obsessivo compulsivo. Nur77= receptor nuclear da subfamília 4 do grupo A membro1. É um fator de transcrição envolvido com ciclo celular, inflamação e apoptose celular. CTLA4: antígeno-4 associado ao linfócito T citotóxico, envolvido com produção de citocinas e imunoglobulinas. A representação dos processos biológicos é comparada com o genoma inteiro, tendo como base a lista de genes com SNVs não sinônimas. Os cinco processos biológicos com menores valores de p são apresentados. O processo biológico com realce em cinza mostra aqueles também encontrados na análise de processos biológicos das variações de novo e de variações raras.
Como mencionado no começo desta sessão, na sessão anexos
encontram-se as listas de todas as variações não codificantes preditas, a rede
IPP das proteínas destes genes e a análise que usa o programa DADA.
66
5. DISCUSSÃO
O presente estudo investigou a ocorrência de variações de novo e raras
em probandos com TOC e em seus genitores.
A partir da confirmação da ocorrência das variações de novo, foi
construída uma rede de interação proteína-proteína que apontou os genes
mais importantes da rede. Além disso, analisamos a interação desses genes
com vários genes candidatos para TOC e realizamos uma análise de quais
processos biológicos e vias de sinalização estavam associados aos genes que
apresentaram variações de novo. O principal foco terem sido as variações de
novo não sinônimas, esta seleção baseou-se nos resultados dos artigos
publicados, utilizando-se os mesmos métodos. Esses autores demostram que
são estas as variações que, de fato, estão associadas com o risco para o
transtorno em questão e que a frequência de ocorrência delas é maior em
probandos quando comparadas com controles ou irmãos não afetados (Girard
et al., 2011; O'roak et al., 2012; Sanders et al., 2012) também fizemos uma
análise de processo e vias biológicas de variações raras e novas, além de uma
análise preliminar de todas as variações de novo codificantes, mesmo aquelas
que não foram validadas em um experimento biológico (sequenciamento
Sanger).
Pelo que se sabe, este é o primeiro estudo de sequenciamento de exoma
em larga escala no genoma inteiro que visa a procurar variações de novo e
raras passíveis de conferir risco de desenvolver TOC. A seguir, discutiremos os
principais resultados deste estudo.
67
5.1. Caraterísticas clínicas dos probandos e variações de novo
Os probandos com TOC analisados (n=17) eram, em sua maioria, casos
com idade de início precoce dos sintomas (média de 8,5 anos), alta ocorrência
de comorbidade com transtornos de tiques, ansiosos e do espectro obsessivo-
compulsivo. Alguns estudos indicam uma associação entre idade de início dos
sintomas de TOC, herdabilidade genética e ocorrência de determinadas
comorbidades, tais como Síndrome de Tourette (ST) e transtornos ansiosos
(Leckman et al., 2003; Bolton et al., 2007; Miguel et al., 2005)
Dentre os 17 probandos com TOC, sete apresentaram pelo menos uma
variação de novo (DNM) classificada como não sinônimas. Foi validado um
total de 10 DNMs não sinônimas. Resultado similar foi apurado em um estudo
de sequenciamento do exoma com 14 portadores de esquizofrenia e seus
genitores, que encontrou 15 DNM não sinônimas em oito deles (Girard et al.,
2011).
Dentre as 10 DNMs validadas, uma foi nonsense e nove foram missense.
A ocorrência de DNMs nonsense com relação à ocorrência de missense foi de
1:9. As variações nonsense são mais deletérias e associadas com maior risco
de desenvolver doenças (Kryukov et al., 2007). Para esquizofrenia, esta
ocorrência foi de 4:15, mesma proporção que aparece em doenças
mendelianas (Girard et al., 2011). Apesar de o valor encontrado no presente
trabalho ser menor que os achados em esquizofrenia e doenças mendelianas,
a ocorrência de variações nonsense é quase o dobro da ocorrência na
população em geral (1:20) (Kryukov et al., 2007).
68
A taxa de DNMs não sinônimas medidas por probando no presente
estudo foi de 0,59. Taxa similar (0,63) para DNMs não sinônimas por indivíduos
foi encontrada em um estudo de sequenciamento com famílias de autismo
(Sanders et al., 2012). Nesse mesmo estudo foram sequenciados os irmãos
saudáveis de probandos com autismo, que mostraram uma taxa de DNMs não
sinônimas por indivíduo de 0,4 (Sanders et al., 2012). A ocorrência de DNM no
presente estudo é maior que a ocorrência em controles do estudo de Sanders
et al. (2012) e um pouco menor que a ocorrência em autistas, o que pode ser
um indício de associação destas DNMs com o risco de desenvolver TOC.
Alguns estudos reportaram a taxa de DNM por geração, e este valor está entre
1,10-1,20 x 10-8 DNM por geração e por genoma humano diploide (Durbin et
al., 2010; Lynch, 2010; Roach et al., 2010). Diferentemente deste trabalho,
essa taxa leva em consideração para seu cálculo o número de bases
sequenciadas e todas as variações codificadoras, podendo ser elas mutações
silenciosas, mutações não sinônimas ou mutações em sítios de splicing
(mecanismo de retirada dos introns no processo de transcrição da proteína).
5.2. rede de Interação proteína-proteína
Todas as análises discutidas a seguir são de predição de genes e
processos biológicos. Estas análises relacionam achados biológicos de bancos
de dados públicos e usam algoritmos matemáticos para predizer possíveis
interações entre genes e proteínas. Esses resultados geram hipóteses do
envolvimento dos genes no risco de desenvolver TOC. Cada análise
69
sequencial apresentada a seguir complementa a anterior, o que deixa cada
hipótese mais robusta.
As medidas de patogenicidade das DMNs mostram que duas variações
que ocorrem nos genes ATP2B2 e ERCC6 e são consideradas patogênicas
segundo o escore Grantham. Tratam-se de mutações que ocorrem em genes
associados com síndromes genéticas. O gene ERCC6 é associado com a
síndrome de Cockayne, uma síndrome rara autossômica recessiva congênita.
Os principais sintomas desta síndrome são caracterizados por inúmeros
problemas metabólicos em vários órgãos; alguns deles são sensibilidade à luz
solar, atraso no desenvolvimento motor e cognitivo e problemas auditivos. E o
gene ATP2B2 é associado com uma síndrome envolvendo surdez, também
autossômica recessiva. Apesar de essas síndromes não estarem associadas
com sintomas de TOC, esses genes poderiam ter um efeito pleiotrópico, isto é,
o mesmo gene estaria associado com mais de um fenótipo (State e Levitt,
2011). Achados nesta direção são reportados em uma revisão de CNVs em
psiquiatria. Nessa revisão os autores mostram que muitas das CNVs
importantes para o risco de desenvolver transtornos mentais estão em regiões
associadas com síndromes clínicas diversas (Malhotra e Sebat, 2012).
O pequeno número de trios analisado neste estudo evidenciou poucos
genes com DNMs não sinônimas. Genes e proteínas interagem para o
funcionamento das funções celulares. Transtornos mentais refletem alterações
em redes e circuitos cerebrais que por sua vez resultam da expressão de
genes modulados pela interação entre genes e o ambiente ao longo do
processo de neurodesenvolvimento (Barabási e Oltvai, 2004; State e Šestan,
70
2012). No presente estudo fizemos uma análise de rede de interação de
proteínas usando princípios da biologia de sistemas com o intuito de gerar
hipóteses a respeito de processos biológicos que estariam envolvidos nos
genes afetados.
Levando-se em consideração que os produtos dos genes (proteínas) que
são associados com determinada doença apresentam alta probabilidade de
interagir fisicamente (Erten et al., 2011), elaboramos uma rede de interação
física proteína-proteína (IPP), usando os genes com DNMs não sinônimas
(genes semente). Os resultados da rede sugerem que os genes WWP1
(domínio WW que contém a proteína ubiquitina ligase E3), AP1G1 (complexo
de proteína relacionada ao adaptador 1 subunidade gama 1 -adaptor-related
protein complex 1 gamma 1 subunit) e CR1 (receptor complemento tipo 1)
foram classificados como brokers na rede (genes que são altamente
conectados na rede). Os três fazem parte da lista de genes semente, os genes
com DNMs.
O gene WWP1 inibe a atividade de transcrição celular induzida pela
transformação do fator de crescimento beta (TGF-β), o qual é membro da
família de citocinas, que mantêm a homeostase imunológica do corpo humano.
O TGF-β1 está envolvido com migração neuronal, processos de
sinaptogênese, principalmente do sistema glutamatérgico e gabaérgico, e é
importante para os processos de neurodesenvolvimento (Heupel et al., 2008).
Alguns autores têm procurado associação de genes ou proteínas de
citocinas envolvidas com o TOC. Uma meta-análise feita com o nível de
71
citocinas proinflamatórias no plasma de pacientes com TOC não mostrou níveis
alterados, quando comparados com controles. Entretanto, esta meta-análise
tem uma série de limitações, tais como amostra pequena, pequeno número de
estudos para compor a análise, uso de medicação e comorbidade com
depressão (Gray, 2012). Trabalhos prévios do nosso grupo, no entanto,
estudando polimorfismos em genes que expressam citocina (TNFA),
apontaram uma associação de alguns polimorfismos na região promotora do
gene com o risco de desenvolver TOC (Hounie et al., 2008; Cappi et al., 2012).
Além disso, outros estudos demostram o papel de algumas citocinas nos
processos de memória e aprendizado, e evidenciam o seu envolvimento no
TOC (Mcafoose e Baune, 2009; Bagans et al., 2013; Fontenelle et al., 2011;
Cai et al., 2013; Wu et al., 2013; Alonso et al., 2012).
De fato, o sistema imunológico interage com o SNC e vice-versa
(Deverman e Patterson, 2009). Citocinas são envolvidas com aspectos normais
do neurodesenvolvimento, incluindo-se diferenciação celular, migração celular
e formação de sinapse (Mcafoose e Baune, 2009). Ademais, citocinas agem
como estressores imunológicos - causam mudanças neuroquímicas e ativam
outros processos que têm influência intracelular em mecanismos de morte
celular e oxidativos. Esses mecanismos estão associados com o
desenvolvimento de transtornos ansiosos e de humor (Konuk et al., 2007).
O gene CR1 é membro da família que regula a ativação do sistema
complemento e é um mediador da atividade da imunidade inata. Foi reportada
uma variação no exon do gene CR1 associada com o declínio de memória
72
episódica (Keenan et al., 2012). Já foram reportados achados que sugerem
deficiência em memória episódica e função executiva no TOC (Kuelz et al.,
2004; Airaksinen et al., 2005).
O gene AP1G1 é um componente de vesículas revestidas por clatrina e
está envolvido com o transporte de moléculas do Complexo de Golgi para o
lisossomo. Até o momento, não existe relato que relacione este gene com
transtorno mental. No entanto, o resultado do programa DADA mostrou que ele
está muito próximo dos genes SLC6A4, transportador de serotonina, e MAOA
(monoamina oxidase), ambos já associados com TOC (Karayiorgou et al.,
1999; Voyiaziakis et al., 2011).
Dois outros importantes genes brokers são o CALM1 e o DLG4. O gene
CALM1 codifica a proteína Ca++/Calmodulin (CaM), que faz parte da cascata
de sinalização que aumenta a função das sinapses glutamatérgicas envolvidas
com aprendizado e memória (Barria et al., 1997; Malenka e Nicoll, 1999). O
gene DLG4 (disc homologo 4 (Drosofila)) é um membro do complexo de
densidade pós-sináptica e já foi associado com esquizofrenia, autismo e TDAH
Muitas linhas de evidências mostram o envolvimento do sistema
glutamatérgico com o risco de desenvolver TOC; os estudos de neuroimagem
relacionam a disfunção de sinapses glutamatégicas com o circuito striato-
tálamo-cortical, este, envolvido com a etiologia do TOC (Ting e Feng, 2008;
Arnold et al., 2009).
O envolvimento do sistema glutamatérgico com TOC também já foi
reportado por muito estudos genéticos (Stewart, 2013). O gene SLC1A1, que
73
codifica o transportador de glutamato, é o único gene candidato que foi
replicado em amostras de TOC independentes. Outro gene importante do
sistema glutamatérgico para TOC é o DLGAP3 ( Züchner et al., 2009; Bienvenu
et al., 2009). Existem esforços para avaliar agentes que modulam os
neurotransmissores glutamatérgicos no tratamento do TOC (Ting e Feng,
2008).
Neste trabalho, um dos processos biológicos significativos em genes com
variações raras herdadas foi o ciclo de Gamma Glutamil. Este é a via de
formação do glutamato, muito estudada para tratamento farmacológico de
agentes, com base no sitema glutamatérgico para TOC (Bhattacharyya e
Chakraborty, 2007).
O gene com maior ranque, de acordo com o DADA, é o WWP1. Ele está
próximo dos genes SLC1A1, GRIK2 e SLC6A4, que foram associados ao TOC
em vários estudos (Taylor, 2012).
O segundo gene com maior ranque, usando-se o programa DADA, foi o
ATP2B2 (ATPase, Ca++ transporting plasma membrane 2 gene), que é
envolvido com a homeostase celular de cálcio. Ele é expresso no cérebro e tem
um importante papel no sistema sensorial. Os transportadores de cálcio têm
um papel importante na transmissão do sinal nas sinapses. SNPs deste gene já
foram associados com autismo (Carayol et al., 2011). Recentemente, dados de
GWAS de cinco transtornos mentais (autismo, esquizofrenia, depressão maior,
esquizofrenia e TDAH) apontaram para o envolvimento de genes que
participam na sinalização de cálcio com o risco de desenvolver esses cinco
74
transtornos. Este seria mais um efeito pleiotrópico desse gene (Cross-Disorder
Group of the Psychiatric Genomics Consortium, et al., 2013).
O gene ATP2B2 está próximo aos genes DLG4 e OLIG 2 (fator de
transcrição 2 de oligodendrócito) e é expresso em amígdala, tálamo e núcleo
caudado - regiões cerebrais que fazem parte do substrato neuroanatômico
descrito no TOC (Stewart et al., 2007a).
Na maioria das redes observadas, os nós geralmente não são próximos
uns dos outros, mas interagem de modo que existe uma via relativamente curta
entre dois deles. Esta propriedade é denominada área restrita (small world) e
caracteriza as redes mais complexas, tais como interação entre proteínas. É
uma propriedade importante, pois garante uma resposta rápida a alterações da
rede. Acredita-se que a modificação da arquitetura da rede esteja associada
com doença. No entanto, para este tipo de rede, a perda de múltiplos
componentes é necessária para que a rede não funcione como um todo
(Barabási, 2004; Albert, 2005). Geralmente os hubs (nós com muitas conexões)
estão no centro da rede e tendem a ser mais importantes que aqueles que
estão na periferia. Há mais chance de mutações em hubs provocarem defeitos
na rede do que mutações que ocorrem em nós na periferia (Zhu et al., 2007).
Levando-se em conta a rede IPP apenas com DNMs não sinônimos, considera-
se que ela mostra que, dentro do sistema físico de interação desses genes, os
genes da lista inicial (lista semente) são muito importantes para o
funcionamento da rede, isto é, eles são brokers, com alto grau de interação, e
conectam muitos nós que não seriam conectados. Os genes AP1G1, CR1 e
WWP1 são brokers que parecem formar módulos distintos de conectores
75
dentro da rede. Eles são conectados pelos outros módulos por meio dos
bridges (genes que conectam módulos de nós conectados). Observando-se a
função desses genes além dos genes CALM1 e DLG4, que também são
brokers, surge a hipótese de que eles façam parte de sistemas diferentes que
estão interligados. Os genes WWP1, DLG4 e CALM1 se envolvem com
sinaptogênese cerebral, mais especificamente com o sistema glutamatégico,
memória e aprendizado. Já o gene CR1 está envolvido com a imunidade inata,
embora já tenha sido associado com deficiência de memória. O outro
agrupamento de nós conectados da rede tem como broker o gene AP1G1, que
é um adaptador de vesícula e está envolvido com o transporte de moléculas do
complexo de Golgi para o lissossoma, no processo de digestão celular. O gene
PACS1, que é um bridge da rede e conecta o módulo do gene AP1G1, é um
regulador de transporte transmembrana do complexo de Golgi, altamente
expresso no desenvolvimento embrionário do cérebro e com pouca expressão
depois do nascimento. Uma mutação de novo neste gene já foi relacionada a
deficiência intelectual (Schuurs-Hoeijmakers et al., 2012). Outro bridge
conectado a este agrupamento é o gene ZNF512B, um fator de transcrição
com função desconhecida, mas que foi reportado como promotor de baixa
expressão de um gene na sinalização da tradução do TGF-β. O TGF-β é
importante na sinaptogênese e se relaciona com o sistema de citocinas
(Tetsuka et al., 2013). Esses achados são muito interessantes quando se
considera que há estudos que sugerem o envolvimento dos sistemas
imunológico interagindo com o glutamatérgico no TOC (Rotge et al., 2010). Da
mesma forma, quando observamos a rede da interação dos genes da meta-
análise de TOC com os genes com DNMs não sinônimas, é possível observar
76
que os com DNM estão na periferia da rede e são envolvidos com o sistema
imunológico. Estes, por sua vez, estão conectados com genes envolvidos com
os sistemas glutamatégico e serotoninérgico, que estão em posição mais
central na rede.
De fato, já foi demostrado que genes com DNM não sinônimas têm maior
chance de ocorrer na periferia da rede, pelo seu efeito deletério e por serem
variações novas. A periferia da rede estaria mais envolvida com evolução
adaptativa, isto é, mais com produção de proteínas que interagem com
mudanças ambientais do que com proteínas centrais, que têm funções
essenciais conservadas. Outro destaque na literatura ocorre em relação às
funções celulares. A periferia da rede estaria associada com funções celulares
periféricas, ou sistema celulares periféricos, como os envolvidos com resposta
imunológica (Kim et al., 2007). Os achados deste trabalho mostram que os
genes envolvidos com sistema imunológico e com DNM não sinônimas estão
na periferia da rede, e que estas proteínas (genes) da periferia na rede estão
interagindo com os genes mais centrais envolvidos com sistema nervoso
central, sinaptogênese e neurotransmissores. Se confirmados em futuros
estudos, estes dados sugerem que mecanismos genéticos relacionados com
transtornos mentais podem implicar DNMs não sinônimas altamente deletérias,
que ocorrem em genes da periferia celular, mas que estão envolvidas com
funções extremamente importantes do SNC. É interessante notar que as
variações genéticas mais encontradas nos genes que expressam
neurotransmissores são os SNPs comuns. Sabe-se que estes polimorfismos
conferem pouco risco de desenvolver os transtornos mentais e que têm um
77
efeito aditivo, isto é, quando se observa seu efeito individual eles são menos
deletérios do que as variações não sinônimas raras.
Vale ressaltar que alguns estudos reportaram que as DNM têm uma
chance maior de ocorrer em genes envolvidos com o sistema imunológico do
que os envolvidos com o SNC e que, de fato, eles podem ser o resultado do
acelerado crescimento populacional, que contribui para o surgimento de novos
mecanismos implicados no desenvolvimento de transtornos mentais (Kryukov
et al., 2007; Ng et al., 2009; Fu et al., 2013).
5.3. Processos biológicos
As variações raras e novas herdadas foram analisadas com relação aos
processos biológicos dos genes que as contêm. Analisamos apenas os
probando com TOC.
Os resultados tanto para variações raras, variações novas e variações
DNM mostram processos biológicos envolvidos com o sistema imunológico,
fato que corrobora os achados das redes de IPP.
Dentre as diversas variações do genoma observadas com métodos de
sequenciamento de exon em larga escala, as variações com uma frequência de
ocorrência menor ou igual a 0,5% são altamente deletérias e consideradas
envolvidas com doença.
78
Resultados de todas as variações de novo codificantes
Apesar de o principal foco deste estudo serem as variações não
sinônimas e as raras herdadas, foi feita uma análise dos genes relacionados
com todas as variações codificantes e de novo. Para estas análises, o número
inicial de genes foi maior, e desta forma os achados podem ser mais robustos.
Observou-se que os mesmos brokers da rede com DNMs não sinônimas são
os mesmos da rede de todas as DNMs codificantes, o que reforça o papel
desses genes.
A rede formada pela associação desses genes com a metanálise de TOC
demostrou dois módulos de nós conectados distintos na rede, que se conectam
por meio dos genes pontes (bridges). Novamente aqui, um dos módulos está
relacionado com as variações comuns (genes da metanálise feita com SNPs
com frequência de ocorrência 5%) e com genes envolvidos com processos
glutamatérgicos e serotonérgicos. Da mesma forma, o outro se compõe dos
genes com DNM em regiões codificantes, associados com sistema
imunológico. Estes achados reforçam a hipótese das relações bi-direcionais
entre o sistema imunológico e o sistema nervoso central e de que alterações
num ou outro sistema estão associadas a maior risco do desenvolvimento de
TOC (Jones e Thomsen, 2012; Hou e Baldwin, 2012; Schmidt et al., 2011).
Vale ressaltar que, similar ao resultado do presente trabalho que
demostra que os genes com DNM estão envolvidos com sinaptogênese e com
o sistema glutamatérgico, os achados do GWAS para TOC também reportaram
genes com SNPs comuns que estão associados aos mesmos mecanismos de
79
sinaptogênese e ao sistema glutamatérgico, tais como o gene ADCY8 e o gene
ISM1, apesar de não terem sido previamente estudados em TOC (Stewart et al,
2012).
5.4. Limitações
A maior limitação deste trabalho é o pequeno número de amostras
sequenciadas. Quando se estudam variações raras que ocorrem com uma
frequência baixa, é necessária uma amostra grande para estimar
adequadamente o número de variantes envolvidas com o risco de desenvolver
a doença. Entretanto, este é o primeiro estudo feito com sequenciamento de
última geração que observa que as DNMs raras têm um papel na conferição do
risco de desenvolver TOC. Estudos com uma amostra maior são necessários e
poderão confirmar e continuar a contribuir para a descoberta do envolvimento
destas variações de novo raras e novas em regiões que codificam proteínas.
Apesar disto, os achados deste estudo mostram o envolvimento dos
genes com variações de novo e raras com processos de sinaptogênese e com
o sistema glutamatérgico. Os processos biológicos são implicados com o
sistema imunológico, mas os resultados da rede IPP apontam para o
envolvimento do sistema imunológico com a função de neurodesenvolvimento
e com o processo cognitivo.
80
6. CONCLUSÃO
As principais conclusões deste trabalho são:
1. Sete de 17 probandos com TOC apresentaram pelo menos uma variação
de novo (DNM) não sinônima. A taxa de ocorrência desta mutações por
indivíduo foi maior quando comparamos com controle sem transtorno
mental. Estas variações são consideradas deletérias
2. Estudos de interação proteína-proteína mostram que os genes WWP1,
CR1 e AP1G1 com variações DNM não sinônimas, encontrados neste
estudo, são corretores (brokers) da rede e estão relacionados com
processos do neurodesenvolvimento cerebral, tais como, sinaptôgenes e
migração neuronal e sistema imunológicos.
3. Estes genes com variações não sinônimas interagem com genes
candidatos já relatados na literatura para TOC.
4. Os Processos biológicos mais representativos dos genes com variações
DNM, raras e novas mostram o envolvimento entre sistemas imunológico
e sistema glutamatérgico.
81
7. REFERÊNCIAS BIBLIOGRÁFICAS
Airaksinen E, Larsson M, Forsell Y. Neuropsychological functions in anxiety
disorders in population-based samples: evidence of episodic memory
dysfunction. J Psychiatr Res. 2005; 39(2):207-14.
Albert R. Scale-free networks in cell biology. J Cell Sci. 2005; 118 (Pt 21):4947-
57.
Alkan C, Coe BP, Eichler EE. Genome structural variation discovery and
genotyping. Nat Rev Genet. 2011; 12(5):363-76.
Alsobrook II JP, Leckman JF, Goodman WK, Rasmussen SA, Pauls DL.
Segregation analysis of obsessive-compulsive disorder using symptom-based
factor scores. Am J Med Genet. 1999; 88(6):669-75.
Andrews G, Stewart G, Allen R, Henderson AS. The genetics of six neurotic
disorders: a twin study. J Affect Disord. 1990; 19(1):23-9.
Arnold PD, Sicard T, Burroughs E, Richter MA, Kennedy JL. Glutamate
transporter gene SLC1A1 associated with obsessive-compulsive disorder. Arch
Gen Psychiatry. 2006; 63(7):769-76.
Atmaca M, Onalan E, Yildirim H, Yuce H, Koc M, Korkmaz S. The association of
myelin oligodendrocyte glycoprotein gene and white matter volume in
obsessive-compulsive disorder. J Affect Disord. 2010; 124(3):309-13.
Awadalla P, Gauthier J, Myers RA, Casals F, Hamdan FF, Griffing AR, et al.
Direct measure of the de novo mutation rate in autism and schizophrenia
cohorts. Am J Hum Genet. 2010; 87(3):316-24.
Barabási AL, Oltvai ZN. Network biology: understanding the cell's functional
organization. Nat Rev Genet. 2004; 5(2):101-13.
Barria A, Muller D, Derkach V, Griffith LC, Soderling TR. Regulatory
phosphorylation of AMPA-type glutamate receptors by CaM-KII during long-
term potentiation. Science. 1997; 276(5321):2042-5.
82
Beckmann JS, Estivill X, Antonarakis SE. Copy number variants and genetic
traits: closer to the resolution of phenotypic to genotypic variability. Nat Rev
Genet. 2007; 8(8):639-46.
Bell GW, Lewitter F. Visualizing networks. Methods Enzymol. 2006; 411:408-21.
Bienvenu OJ, Wang Y, Shugart YY, Welch JM, Grados MA, Fyer AJ, et al.
Sapap3 and pathological grooming in humans: Results from the OCD
collaborative genetics study. Am J Med Genet B Neuropsychiatr Genet. 2009;
150B(5):710-20.
Black DW, Noyes R, Goldstein RB, Blum N. A family study of obsessive-
compulsive disorder. Arch Gen Psychiatry. 1992; 49(5):362-8.
Boardman L, van der Merwe L, Lochner C, Kinnear CJ, Seedat S, Stein DJ, et
al. Investigating SAPAP3 variants in the etiology of obsessive-compulsive
disorder and trichotillomania in the South African white population. Compr
Psychiatry. 2011; 52(2):181-7.
Bolton D, Rijsdijk F, O'Connor TG, Perrin S, Eley TC. Obsessive-compulsive
disorder, tics and anxiety in 6-year-old twins. Psychol Med. 2007; 37(1):39-48.
Cai JJ, Borenstein E, Petrov DA. Broker genes in human disease. Genome Biol
Evol. 2010; 2:815-25.
Cappi C, Muniz RK, Sampaio AS, Cordeiro Q, Brentani H, Palácios SA, et al.
Association study between functional polymorphisms in the TNF-alpha gene
and obsessive-compulsive disorder. Arq Neuropsiquiatr. 2012; 70 (2):87-90.
Carayol J, Sacco R, Tores F, Rousseau F, Lewin P, Hager J, et al. Converging
evidence for an association of ATP2B2 allelic variants with autism in male
subjects. Biol Psychiatry. 2011; 70(9):880-7.
Cavallini MC, Bertelli S, Chiapparino D, Riboldi S, Bellodi L. Complex
segregation analysis of obsessive-compulsive disorder in 141 families of eating
disorder probands, with and without obsessive-compulsive disorder. Am J Med
Genet. 2000; 96(3):384-91.
83
Conrad DF, Pinto D, Redon R, Feuk L, Gokcumen O, Zhang Y, et al. Origins
and functional impact of copy number variation in the human genome. Nature.
2010; 464(7289):704-12.
Consortium C-DGotPG. Identification of risk loci with shared effects on five
major psychiatric disorders: a genome-wide analysis. Lancet. 2013.
Consortium IH. A haplotype map of the human genome. Nature. 2005;
437(7063):1299-320.
Consortium IS. Rare chromosomal deletions and duplications increase risk of
schizophrenia. Nature. 2008; 455 (7210):237-41.
Cordell HJ. Detecting gene-gene interactions that underlie human diseases. Nat
Rev Genet. 2009; 10(6):392-404.
Davis KL, Yu D, Keenan C, Gamazon E, Konkashbaev A, Derks ME, et al.
Partitioning the Heritability of Tourette Syndrome and Obsessive Compulsive
Disorder Reveals Differences In Genetic Architecture. Plos One. 2013
de Mathis MA, do Rosario MC, Diniz JB, Torres AR, Shavitt RG, Ferrão YA, et
al. Obsessive-compulsive disorder: influence of age at onset on comorbidity
patterns. Eur Psychiatry. 2008; 23(3):187-94.
Deverman BE, Patterson PH. Cytokines and CNS development. Neuron. 2009;
64(1):61-78.
Dickel DE, Veenstra-VanderWeele J, Cox NJ, Wu X, Fischer DJ, Van Etten-Lee
M, et al. Association testing of the positional and functional candidate gene
SLC1A1/EAAC1 in early-onset obsessive-compulsive disorder. Arch Gen
Psychiatry. 2006; 63(7):778-85.
do Rosario-Campos MC, Leckman JF, Curi M, Quatrano S, Katsovitch L, Miguel
EC, et al. A family study of early-onset obsessive-compulsive disorder. Am J
Med Genet B Neuropsychiatr Genet. 2005; 136B(1):92-7.
Doncheva NT, Assenov Y, Domingues FS, Albrecht M. Topological analysis
and interactive visualization of biological networks and protein structures. Nat
Protoc. 2012; 7(4):670-85.
84
Durbin RM, Abecasis GR, Altshuler DL, Auton A, Brooks LD, Gibbs RA, et al. A
map of human genome variation from population-scale sequencing. Nature.
2010; 467(7319):1061-73.
Eichler EE, Flint J, Gibson G, Kong A, Leal SM, Moore JH, et al. Missing
heritability and strategies for finding the underlying causes of complex disease.
Nat Rev Genet. 2010; 11(6):446-50.
Erten S, Bebek G, Ewing RM, Koyutürk M. DADA: Degree-Aware Algorithms for
Network-Based Disease Gene Prioritization. BioData Min. 2011; 4:19.
Ewing B, Green P. Base-calling of automated sequencer traces using phred. II.
Error probabilities. Genome Res. 1998; 8(3):186-94.
Fernandez TV, Sanders SJ, Yurkiewicz IR, Ercan-Sencicek AG, Kim YS,
Fishman DO, et al. Rare copy number variants in tourette syndrome disrupt
genes in histaminergic pathways and overlap with autism. Biol Psychiatry. 2012;
71(5):392-402.
First, MB. Structural Clinical Interview for DSM-IV-TR Impulse Control Disorders
Not Elsewhere Classified (SCID-TCIm). Biometrics Research Department; New
York State Psychiatric Institute. (2004)
Fu W, O'Connor TD, Jun G, Kang HM, Abecasis G, Leal SM, et al. Analysis of
6,515 exomes reveals the recent origin of most human protein-coding variants.
Nature. 2013; 493(7431):216-20.
Gandhi TK, Zhong J, Mathivanan S, Karthick L, Chandrika KN, Mohan SS, et al.
Analysis of the human protein interactome and comparison with yeast, worm
and fly interaction datasets. Nat Genet. 2006; 38(3):285-93.
Gilman SR, Iossifov I, Levy D, Ronemus M, Wigler M, Vitkup D. Rare de novo
variants associated with autism implicate a large functional network of genes
involved in formation and function of synapses. Neuron. 2011; 70(5):898-907.
Girard SL, Gauthier J, Noreau A, Xiong L, Zhou S, Jouan L, et al. Increased
exonic de novo mutation rate in individuals with schizophrenia. Nat Genet.
2011; 43(9):860-3.
85
Glessner JT, Wang K, Cai G, Korvatska O, Kim CE, Wood S, et al. Autism
genome-wide copy number variation reveals ubiquitin and neuronal genes.
Nature. 2009; 459(7246):569-73.
Goldstein DB. Common genetic variation and human traits. N Engl J Med. 2009;
360(17):1696-8.
Gonzales C. Estudo de famílias no Transtorno Obsessivo Compulsivo. Tese de
doutorado. Universidade Federal de São Paulo, São Paulo, SP. 2003. p. 227.
Gottesman II. Twins: en route to QTLs for cognition. Science. 1997;
276(5318):1522-3.
Grabe HJ, Ruhrmann S, Ettelt S, Buhtz F, Hochrein A, Schulze-Rauschenbach
S, et al. Familiality of obsessive-compulsive disorder in nonclinical and clinical
subjects. Am J Psychiatry. 2006; 163(11):1986-92.
Grantham R. Amino acid difference formula to help explain protein evolution.
Science. 1974; 185(4154):862-4.
Gray SM, Bloch MH. Systematic review of proinflammatory cytokines in
obsessive-compulsive disorder. Curr Psychiatry Rep. 2012; 14(3): 220-8.
Haber SN, Heilbronner SR. Translational research in OCD: circuitry and
mechanisms. Neuropsychopharmacology. 2013; 38(1):252-3.
Hall D, Dhilla A, Charalambous A, Gogos JA, Karayiorgou M. Sequence
variants of the brain-derived neurotrophic factor (BDNF) gene are strongly
associated with obsessive-compulsive disorder. Am J Hum Genet. 2003;
73(2):370-6.
Hanna GL, Fingerlin TE, Himle JA, Boehnke M. Complex segregation analysis
of obsessive-compulsive disorder in families with pediatric probands. Hum
Hered. 2005; 60(1):1-9.
Hanna GL, Veenstra-VanderWeele J, Cox NJ, Boehnke M, Himle JA, Curtis
GC, et al. Genome-wide linkage analysis of families with obsessive-compulsive
disorder ascertained through pediatric probands. Am J Med Genet. 2002;
114(5):541-52.
86
Hanna GL, Veenstra-Vanderweele J, Cox NJ, Van Etten M, Fischer DJ, Himle
JA, et al. Evidence for a susceptibility locus on chromosome 10p15 in early-
onset obsessive-compulsive disorder. Biol Psychiatry. 2007; 62(8):856-62.
Hanna GL, Veenstra-Vanderweele J, Cox NJ, Van Etten M, Fischer DJ, Himle
JA, et al. Evidence for a susceptibility locus on chromosome 10p15 in early-
onset obsessive-compulsive disorder. Biol Psychiatry. 2007; 62(8):856-62.
Heupel K, Sargsyan V, Plomp JJ, Rickmann M, Varoqueaux F, Zhang W, et al.
Loss of transforming growth factor-beta 2 leads to impairment of central
synapse function. Neural Dev. 2008; 3:25.
Hinds DA, Stuve LL, Nilsen GB, Halperin E, Eskin E, Ballinger DG, et al. Whole-
genome patterns of common DNA variation in three human populations.
Science. 2005; 307(5712):1072-9.
Hooper SD, Johansson AC, Tellgren-Roth C, Stattin EL, Dahl N, Cavelier L, et
al. Genome-wide sequencing for the identification of rearrangements associated
with Tourette syndrome and obsessive-compulsive disorder. BMC Med Genet.
2012; 13:123.
Hou, R. ; Baldwin, D. S. A neuroimmunological perspective on anxiety
disorders. Human Psychopharmacol. 2012; 27 (1): 6-14.
Hounie AG, Cappi C, Cordeiro Q, Sampaio AS, Moraes I, Rosário MC, et al.
TNF-alpha polymorphisms are associated with obsessive-compulsive disorder.
Neurosci Lett. 2008; 442(2):86-90.
Iafrate AJ, Feuk L, Rivera MN, Listewnik ML, Donahoe PK, Qi Y, et al.
Detection of large-scale variation in the human genome. Nat Genet. 2004;
36(9):949-51.
Inouye E. Similar And Dissimilar Manifestations Of Obsessive-Compulsive
Neuroses In Monozygotic Twins. Am J Psychiatry. 1965; 121:1171-5.
Insel T. Obsessive-compulsive disorder. Psychiatr Clin North Am. 1985;
8(1):105-17.
Jones KA, Thomsen C. The role of the innate immune system in psychiatric
disorders. Mol Cell Neurosci. 2013; 53:52-62.
87
Jonnal AH, Gardner CO, Prescott CA, Kendler KS. Obsessive and compulsive
symptoms in a general population sample of female twins. Am J Med Genet.
2000; 96(6):791-6.
Karayiorgou M, Sobin C, Blundell ML, Galke BL, Malinova L, Goldberg P, et al.
Family-based association studies support a sexually dimorphic effect of COMT
and MAOA on genetic susceptibility to obsessive-compulsive disorder. Biol
Psychiatry. 1999; 45(9):1178-89.
Keenan BT, Shulman JM, Chibnik LB, Raj T, Tran D, Sabuncu MR, et al. A
coding variant in CR1 interacts with APOE-ε4 to influence cognitive decline.
Hum Mol Genet. 2012; 21(10):2377-88.
Kim PM, Korbel JO, Gerstein MB. Positive selection at the protein network
periphery: evaluation in terms of structural constraints and cellular context. Proc
Natl Acad Sci U S A. 2007; 104(51):20274-9.
Kirov G, Grozeva D, Norton N, Ivanov D, Mantripragada KK, Holmans P, et al.
Support for the involvement of large copy number variants in the pathogenesis
of schizophrenia. Hum Mol Genet. 2009; 18(8):1497-503.
Konuk N, Tekin IO, Ozturk U, Atik L, Atasoy N, Bektas S, et al. Plasma levels of
tumor necrosis factor-alpha and interleukin-6 in obsessive compulsive disorder.
Mediators Inflamm. 2007; 2007:65704.
Kryukov GV, Pennacchio LA, Sunyaev SR. Most rare missense alleles are
deleterious in humans: implications for complex disease and association
studies. Am J Hum Genet. 2007; 80(4):727-39.
Kuelz AK, Hohagen F, Voderholzer U. Neuropsychological performance in
obsessive-compulsive disorder: a critical review. Biol Psychol. 2004; 65(3):185-
236.
Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial
sequencing and analysis of the human genome. Nature. 2001; 409(6822):860-
921.
Leckman J, Grice D, Boardman J, Zhang H, Vitale A, Bondi C, et al. Symptoms
of obsessive-compulsive disorder. Am J Psychiatry. 1997; 154(7):911-7.
88
Leckman JF, Pauls DL, Zhang H, Rosario-Campos MC, Katsovich L, Kidd KK,
et al. Obsessive-compulsive symptom dimensions in affected sibling pairs
diagnosed with Gilles de la Tourette syndrome. Am J Med Genet B
Neuropsychiatr Genet. 2003; 116B(1):60-8.
Lee C, Scherer SW. The clinical context of copy number variation in the human
genome. Expert Rev Mol Med. 2010; 12:e8.
Lehne B, Lewis CM, Schlitt T. Exome localization of complex disease
association signals. BMC Genomics. 2011; 12:92.
Lenane MC, Swedo SE, Leonard H, Pauls DL, Sceery W, Rapoport JL.
Psychiatric disorders in first degree relatives of children and adolescents with
obsessive compulsive disorder. J Am Acad Child Adolesc Psychiatry. 1990;
29(3):407-12.
Levy D, Ronemus M, Yamrom B, Lee YH, Leotta A, Kendall J, et al. Rare de
novo and transmitted copy-number variation in autistic spectrum disorders.
Neuron. 2011; 70(5):886-97.
Li H, Durbin R. Fast and accurate long-read alignment with Burrows-Wheeler
transform. Bioinformatics. 2010; 26(5):589-95.
Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The
Sequence Alignment/Map format and SAMtools. Bioinformatics. 2009;
25(16):2078-9.
Liang KY, Wang Y, Shugart YY, Grados M, Fyer AJ, Rauch S, et al. Evidence
for potential relationship between SLC1A1 and a putative genetic linkage region
on chromosome 14q to obsessive-compulsive disorder with compulsive
hoarding. Am J Med Genet B Neuropsychiatr Genet. 2008; 147B(6):1000-2.
Lynch M. Rate, molecular spectrum, and consequences of human mutation.
Proc Natl Acad Sci U S A. 2010; 107(3):961-8.
Malenka RC, Nicoll RA. Long-term potentiation--a decade of progress?
Science. 1999; 285(5435):1870-4.
89
Malhotra D, McCarthy S, Michaelson JJ, Vacic V, Burdick KE, Yoon S, et al.
High frequencies of de novo CNVs in bipolar disorder and schizophrenia.
Neuron. 2011; 72(6):951-63.
Malhotra D, Sebat J. CNVs: harbingers of a rare variant revolution in psychiatric
genetics. Cell. 2012; 148(6):1223-41.
Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, et al.
Finding the missing heritability of complex diseases. Nature. 2009;
461(7265):747-53.
Marshall CR, Noor A, Vincent JB, Lionel AC, Feuk L, Skaug J, et al. Structural
variation of chromosomes in autism spectrum disorder. Am J Hum Genet. 2008;
82(2):477-88.
Mathews CA, Badner JA, Andresen JM, Sheppard B, Himle JA, Grant JE, et al.
Genome-wide linkage analysis of obsessive-compulsive disorder implicates
chromosome 1p36. Biol Psychiatry. 2012; 72(8):629-36.
Matsunaga H, Seedat S. Obsessive-compulsive spectrum disorders: cross-
national and ethnic issues. CNS Spectr. 2007; 12(5):392-400.
McAfoose J, Baune BT. Evidence for a cytokine model of cognitive function.
Neurosci Biobehav Rev. 2009; 33(3):355-66.
McCarroll SA, Kuruvilla FG, Korn JM, Cawley S, Nemesh J, Wysoker A, et al.
Integrated detection and population-genetic analysis of SNPs and copy number
variation. Nat Genet. 2008; 40(10):1166-74.
McGrath ML, Yu D, Marshall C , Davis KL, Thiruvahindrapuram B, Li B, et al. A
cross-disorder, genome-wide analysis of copy number variation in Tourette
Syndrome and Obsessive-Compulsive Disorder. Molecular Psychiatric. 2013
Miguel EC, Leckman JF, Rauch S, do Rosario-Campos MC, Hounie AG,
Mercadante MT, et al. Obsessive-compulsive disorder phenotypes: implications
for genetic studies. Mol Psychiatry. 2005; 10(3):258-75.
Mowry BJ, Gratten J. The emerging spectrum of allelic variation in
schizophrenia: current evidence and strategies for the identification and
90
functional characterization of common and rare variants. Mol Psychiatry. 2013;
18(1):38-52.
Moya PR, Dodman NH, Timpano KR, Rubenstein LM, Rana Z, Fried RL, et al.
Rare missense neuronal cadherin gene (CDH2) variants in specific obsessive-
compulsive disorder and Tourette disorder phenotypes. Eur J Hum Genet.
2013.
Nestadt G, Lan T, Samuels J, Riddle M, Bienvenu OJ, Liang KY, et al. Complex
segregation analysis provides compelling evidence for a major gene underlying
obsessive-compulsive disorder and for heterogeneity by sex. Am J Hum Genet.
2000; 67(6):1611-6.
Nestadt G, Samuels J, Riddle M, Bienvenu OJ, Liang KY, LaBuda M, et al. A
family study of obsessive-compulsive disorder. Arch Gen Psychiatry. 2000;
57(4):358-63.
Nestadt G, Wang Y, Grados MA, Riddle MA, Greenberg BD, Knowles JA, et al.
Homeobox genes in obsessive-compulsive disorder. Am J Med Genet B
Neuropsychiatr Genet. 2012; 159B(1):53-60.
Ng SB, Turner EH, Robertson PD, Flygare SD, Bigham AW, Lee C, et al.
Targeted capture and massively parallel sequencing of 12 human exomes.
Nature. 2009; 461(7261):272-6.
O'Roak BJ, Deriziotis P, Lee C, Vives L, Schwartz JJ, Girirajan S, et al. Exome
sequencing in sporadic autism spectrum disorders identifies severe de novo
mutations. Nat Genet. 2011; 43(6):585-9.
O'Roak BJ, Vives L, Girirajan S, Karakoc E, Krumm N, Coe BP, et al. Sporadic
autism exomes reveal a highly interconnected protein network of de novo
mutations. Nature. 2012; 485(7397):246-50.
Pauls DL, Alsobrook JP, Goodman W, Rasmussen S, Leckman JF. A family
study of obsessive-compulsive disorder. Am J Psychiatry. 1995; 152(1):76-84.
Pauls DL. The genetics of obsessive compulsive disorder and Gilles de la
Tourette's syndrome. Psychiatr Clin North Am. 1992; 15(4):759-66.
91
Pauls DL. The genetics of obsessive compulsive disorder: a review of the
evidence. Am J Med Genet C Semin Med Genet. 2008; 148C(2):133-9.
Pauls DL. The genetics of obsessive-compulsive disorder: a review. Dialogues
Clin Neurosci. 2010; 12(2):149-63.
Pinto D, Pagnamenta AT, Klei L, Anney R, Merico D, Regan R, et al. Functional
impact of global rare copy number variation in autism spectrum disorders.
Nature. 2010; 466(7304):368-72.
Pittenger C, Bloch MH, Williams K. Glutamate abnormalities in obsessive
compulsive disorder: neurobiology, pathophysiology, and treatment. Pharmacol
Ther. 2011; 132(3):314-32.
Rasmussen SA, Eisen JL. Epidemiology of obsessive compulsive disorder. J
Clin Psychiatry. 1990; 51 Suppl:10-3; discussion 4.
Redon R, Ishikawa S, Fitch KR, Feuk L, Perry GH, Andrews TD, et al. Global
variation in copy number in the human genome. Nature. 2006; 444(7118):444-
54.
Roach JC, Glusman G, Smit AF, Huff CD, Hubley R, Shannon PT, et al.
Analysis of genetic inheritance in a family quartet by whole-genome
sequencing. Science. 2010; 328(5978):636-9.
Ross J, Badner J, Garrido H, Sheppard B, Chavira DA, Grados M, et al.
Genomewide linkage analysis in Costa Rican families implicates chromosome
15q14 as a candidate region for OCD. Hum Genet. 2011; 130(6):795-805.
Rotge JY, Aouizerate B, Tignol J, Bioulac B, Burbaud P, Guehl D. The
glutamate-based genetic immune hypothesis in obsessive-compulsive disorder.
An integrative approach from genes to symptoms. Neuroscience. 2010;
165(2):408-17.
Ruscio A, Stein D, Chiu W, Kessler R. The epidemiology of obsessive-
compulsive disorder in the National Comorbidity Survey Replication. Mol
Psychiatry. 2010; 15(1):53-63.
Saito R, Smoot ME, Ono K, Ruscheinski J, Wang PL, Lotia S, et al. A travel
guide to Cytoscape plugins. Nat Methods. 2012; 9(11):1069-76.
92
Samuels J, Shugart YY, Grados MA, Willour VL, Bienvenu OJ, Greenberg BD,
et al. Significant linkage to compulsive hoarding on chromosome 14 in families
with obsessive-compulsive disorder: results from the OCD Collaborative
Genetics Study. Am J Psychiatry. 2007; 164(3):493-9.
Sanders SJ, Ercan-Sencicek AG, Hus V, Luo R, Murtha MT, Moreno-De-Luca
D, et al. Multiple recurrent de novo CNVs, including duplications of the 7q11.23
Williams syndrome region, are strongly associated with autism. Neuron. 2011;
70(5):863-85.
Sanders SJ, Murtha MT, Gupta AR, Murdoch JD, Raubeson MJ, Willsey AJ, et
al. De novo mutations revealed by whole-exome sequencing are strongly
associated with autism. Nature. 2012; 485(7397):237-41.
Schmidt MI, Duncan BB, Azevedo e Silva G, Menezes AM, Monteiro CA,
Barreto SM, et al. Chronic non-communicable diseases in Brazil: burden and
current challenges. Lancet. 2011; 377(9781):1949-61.
Schuurs-Hoeijmakers JH, Oh EC, Vissers LE, Swinkels ME, Gilissen C,
Willemsen MA, et al. Recurrent de novo mutations in PACS1 cause defective
cranial-neural-crest migration and define a recognizable intellectual-disability
syndrome. Am J Hum Genet. 2012; 91(6):1122-7.
Sebat J, Lakshmi B, Malhotra D, Troge J, Lese-Martin C, Walsh T, et al. Strong
association of de novo copy number mutations with autism. Science. 2007;
316(5823):445-9.
Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, et al. Large-scale
copy number polymorphism in the human genome. Science. 2004;
305(5683):525-8.
Sebat J, Lakshmi B, Troge J, Alexander J, Young J, Lundin P, et al. Large-scale
copy number polymorphism in the human genome. Science. 2004;
305(5683):525-8.
Sebat J, Levy DL, McCarthy SE. Rare structural variants in schizophrenia: one
disorder, multiple mutations; one mutation, multiple disorders. Trends Genet.
2009; 25(12):528-35.
93
Sebat J. Major changes in our DNA lead to major changes in our thinking. Nat
Genet. 2007; 39(7 Suppl):S3-5.
Shugart YY, Samuels J, Willour VL, Grados MA, Greenberg BD, Knowles JA, et
al. Genomewide linkage scan for obsessive-compulsive disorder: evidence for
susceptibility loci on chromosomes 3q, 7p, 1q, 15q, and 6q. Mol Psychiatry.
2006; 11(8):763-70.
State MW, Levitt P. The conundrums of understanding genetic risks for autism
spectrum disorders. Nat Neurosci. 2011; 14(12):1499-506.
State MW, Šestan N. Neuroscience. The emerging biology of autism spectrum
disorders. Science. 2012; 337(6100):1301-3.
State MW. The genetics of child psychiatric disorders: focus on autism and
Tourette syndrome. Neuron. 2010; 68(2):254-69.
Stefansson H, Rujescu D, Cichon S, Pietiläinen OP, Ingason A, Steinberg S, et
al. Large recurrent microdeletions associated with schizophrenia. Nature. 2008;
455(7210):232-6.
Stewart SE, Fagerness JA, Platko J, Smoller JW, Scharf JM, Illmann C, et al.
Association of the SLC1A1 glutamate transporter gene and obsessive-
compulsive disorder. Am J Med Genet B Neuropsychiatr Genet. 2007;
144B(8):1027-33.
Stewart SE, Mayerfeld C, Arnold PD, Crane JR, O'Dushlaine C, Fagerness JA,
et al. Meta-analysis of association between obsessive-compulsive disorder and
the 3' region of neuronal glutamate transporter gene SLC1A1. Am J Med Genet
B Neuropsychiatr Genet. 2013.
Stewart SE, Platko J, Fagerness J, Birns J, Jenike E, Smoller JW, et al. A
genetic family-based association study of OLIG2 in obsessive-compulsive
disorder. Arch Gen Psychiatry. 2007; 64(2):209-14.
Stewart SE, Platko J, Fagerness J, Birns J, Jenike E, Smoller JW, et al. A
genetic family-based association study of OLIG2 in obsessive-compulsive
disorder. Arch Gen Psychiatry. 2007; 64(2):209-14.
94
Subramanian G, Adams MD, Venter JC, Broder S. Implications of the human
genome for understanding human biology and medicine. JAMA. 2001;
286(18):2296-307.
Taylor S. Molecular genetics of obsessive-compulsive disorder: a
comprehensive meta-analysis of genetic association studies. Mol Psychiatry.
2012.
Tennessen JA, Bigham AW, O'Connor TD, Fu W, Kenny EE, Gravel S, et al.
Evolution and functional impact of rare coding variation from deep sequencing
of human exomes. Science. 2012; 337(6090):64-9.
Tetsuka S, Morita M, Iida A, Uehara R, Ikegawa S, Nakano I. ZNF512B gene is
a prognostic factor in patients with amyotrophic lateral sclerosis. J Neurol Sci.
2013; 324(1-2):163-6.
Ting JT, Feng G. Glutamatergic Synaptic Dysfunction and Obsessive-
Compulsive Disorder. Curr Chem Genomics. 2008; 2:62-75.
Urraca N, Camarena B, Gómez-Caudillo L, Esmer MC, Nicolini H. Mu opioid
receptor gene as a candidate for the study of obsessive compulsive disorder
with and without tics. Am J Med Genet B Neuropsychiatr Genet. 2004;
127B(1):94-6.
van Grootheest DS, Cath DC, Beekman AT, Boomsma DI. Twin studies on
obsessive-compulsive disorder: a review. Twin Res Hum Genet. 2005;
8(5):450-8.
Veenstra-VanderWeele J, Xu T, Ruggiero AM, Anderson LR, Jones ST, Himle
JA, et al. Functional studies and rare variant screening of SLC1A1/EAAC1 in
males with obsessive-compulsive disorder. Psychiatr Genet. 2012; 22(5):256-
60.
Vidal M. Interactome modeling. FEBS Lett. 2005; 579(8):1834-8.
Voyiaziakis E, Evgrafov O, Li D, Yoon HJ, Tabares P, Samuels J, et al.
Association of SLC6A4 variants with obsessive-compulsive disorder in a large
multicenter US family study. Mol Psychiatry. 2011; 16(1):108-20.
95
Walsh T, McClellan JM, McCarthy SE, Addington AM, Pierce SB, Cooper GM,
et al. Rare structural variants disrupt multiple genes in neurodevelopmental
pathways in schizophrenia. Science. 2008; 320(5875):539-43.
Welch JM, Lu J, Rodriguiz RM, Trotta NC, Peca J, Ding JD, et al. Cortico-
striatal synaptic defects and OCD-like behaviours in Sapap3-mutant mice.
Nature. 2007; 448(7156):894-900.
Wendland JR, Moya PR, Timpano KR, Anavitarte AP, Kruse MR, Wheaton MG,
et al. A haplotype containing quantitative trait loci for SLC1A1 gene expression
and its association with obsessive-compulsive disorder. Arch Gen Psychiatry.
2009; 66(4):408-16.
Williams NM, Zaharieva I, Martin A, Langley K, Mantripragada K, Fossdal R, et
al. Rare chromosomal deletions and duplications in attention-deficit
hyperactivity disorder: a genome-wide analysis. Lancet. 2010; 376(9750):1401-
8.
Willour VL, Yao Shugart Y, Samuels J, Grados M, Cullen B, Bienvenu OJ, et al.
Replication study supports evidence for linkage to 9p24 in obsessive-
compulsive disorder. Am J Hum Genet. 2004; 75(3):508-13.
Wu K, Hanna GL, Easter P, Kennedy JL, Rosenberg DR, Arnold PD. Glutamate
system genes and brain volume alterations in pediatric obsessive-compulsive
disorder: a preliminary study. Psychiatry Res. 2013; 211(3):214-20.
Wu K, Hanna GL, Rosenberg DR, Arnold PD. The role of glutamate signaling in
the pathogenesis and treatment of obsessive-compulsive disorder. Pharmacol
Biochem Behav. 2012; 100(4):726-35.
Xu B, Roos JL, Dexheimer P, Boone B, Plummer B, Levy S, et al. Exome
sequencing supports a de novo mutational paradigm for schizophrenia. Nat
Genet. 2011; 43(9):864-8.
Xu B, Woodroffe A, Rodriguez-Murillo L, Roos JL, van Rensburg EJ, Abecasis
GR, et al. Elucidating the genetic architecture of familial schizophrenia using
rare copy number variant and linkage scans. Proc Natl Acad Sci U S A. 2009;
106(39):16746-51.
96
Yauk CL, Lucas Argueso J, Auerbach SS, Awadalla P, Davis SR, Demarini DM,
et al. Harnessing genomics to identify environmental determinants of heritable
disease. Mutat Res. 2013; 752(1):6-9.
Yu TW, Chahrour MH, Coulter ME, Jiralerspong S, Okamura-Ikeda K, Ataman
B, et al. Using Whole-Exome Sequencing to Identify Inherited Causes of
Autism. Neuron. 2013; 77(2):259-73.
Zai G, Arnold P, Burroughs E, Barr CL, Richter MA, Kennedy JL. Evidence for
the gamma-amino-butyric acid type B receptor 1 (GABBR1) gene as a
susceptibility factor in obsessive-compulsive disorder. Am J Med Genet B
Neuropsychiatr Genet. 2005; 134B(1):25-9.
Zai G, Bezchlibnyk YB, Richter MA, Arnold P, Burroughs E, Barr CL, et al.
Myelin oligodendrocyte glycoprotein (MOG) gene is associated with obsessive-
compulsive disorder. Am J Med Genet B Neuropsychiatr Genet. 2004;
129B(1):64-8.
Zhu X, Gerstein M, Snyder M. Getting connected: analysis and principles of
biological networks. Genes Dev. 2007; 21(9):1010-24.
Züchner S, Wendland JR, Ashley-Koch AE, Collins AL, Tran-Viet KN, Quinn K,
et al. Multiple rare SAPAP3 missense variants in trichotillomania and OCD. Mol
Psychiatry. 2009; 14(1):6-9.
Zuk O, Hechter E, Sunyaev SR, Lander ES. The mystery of missing heritability:
Genetic interactions create phantom heritability. Proc Natl Acad Sci U S A.
2012; 109(4):1193-8.
ANEXOS Todas estas análises são preliminares e se referem as variações de novo codificantes. Estas variações não foram validadas experimentalmente. Porém, visto que 90,9% das variações de novo não sinônimas previstas foram validadas, acredita-se que estas análises sejam robustas o suficiente para serem relatadas neste estudo e serem discustidas em conjunto com as outras análises apresentadas ao longo da tese
Anexo A: Sumário das variações codificantes encontradas em probandos com Transtorno Obsessivo-Compulsivo, a partir do sequenciamento em larga escala de última geração
Indivíduo Cr
Posição
(hg19) Gene
Expresso Alelo
Ref. Zigosidade
Alelo mutante1
Mutação
Aminoácido
substituição
Phred score
(0-40)
Grantham
Score RS do SNV Cérebro Sinapse Prob Pai Mãe
TOC129101 2 219894325 CCDC108 Sim Não C Het 23 / 43 0 / 44 0 / 52 Missense E484K 28 56 0 TOC129101 4 102993556 BANK1 Sim Não A Het 49 / 102 0 / 64 0 / 62 Missense K766M 30 95 0 TOC129101 5 16783451 MYO10 Sim Não C Het 48 / 98 0 / 66 0 / 66 Missense E199K 28 56 0 TOC129101 17 21318741 KCNJ12 Sim Sim C Het 13 / 60 0 / 52 2 / 49 Silenciosa N29N 34 0 rs75113504
TOC139801 1 89655829 GBP4 Sim Não C Het 27 / 57 0 / 52 0 / 62 Silenciosa T363T 36 0 0 TOC139801 1 207755290 CR1 Não Não T Het 39 / 92 0 / 72 0 / 72 Missense S1748R 37 110 0 TOC139801 2 223423326 SGPP2 Sim Não C Het 39 / 66 0 / 54 0 / 51 Silenciosa P303P 26 0 rs183770597 TOC144601 2 220402768 ACCN4 Sim Não G Het 35 / 72 1 / 52 0 / 42 Silenciosa X667X 28 0 0 TOC144601 22 24224659 SLC2A11 Sim Não C Het 9 / 16 0 / 5 0 / 8 Silenciosa L240L 29 0 rs9612499 TOC175901 16 11016048 CIITA Sim Não C Het 29 / 63 0 / 52 0 / 49 Silenciosa D1058D 36 0 rs148475711 TOC175901 16 71807129 AP1G1 Sim Sim T Het 27 / 52 0 / 51 0 / 55 Missense K155E 25 56 0 TOC018701 19 3831449 ZFR2 Desc Não G Het 9 / 16 0 / 12 0 / 7 Missense P235L 22 98 rs2240232 TOC003301 17 72246085 TTYH2 Sim Não C Het 23 / 50 0 / 27 0 / 44 Missense T314I 30 89 0 TOC016301 15 75891017 SNUPN Sim Não A Het 19 / 39 0 / 57 0 / 51 Missense D255E 27 45 0 TOC018901 3 10380029 ATP2B2 Sim Sim A Het 15 / 43 0 / 34 0 / 16 Missense I1084T 31 89 0 TOC018901 3 180703745 DNAJC19 Sim Sim T Het 60 / 123 0 / 75 0 / 48 Silenciosa R83R 30 0 0 TOC018901 11 76751663 B3GNT6 Sim Não G Het 9 / 22 0 / 18 1 / 9 Silenciosa V356V 31 0 rs144466809 TOC018901 5 79030338 CMYA5 Sim Não A Het 15/0 0/21 0/8 Missense D1917G 29 94 0 TOC181401 10 28971325 BAMBI Sim Não G Het 25 / 55 0 / 26 0 / 35 Missense V260I 36 29 0
Cr, cromossomo; Het, heterozigoto 1Leitura da base mutante
2 Base mutante/Total de leitura das bases (cover deep). O Score Phred é um escore relacionado com a probabilidade de erro de cada base identificada. Um escore
igual ou maior que 30 é considerado de probabilidade de erro de 1/1000 erros na identificação da base (nucleotídeo). Os valores deste escore para as variações que foram validadas são muito próximos de 30, apesar de o limiar utilizado neste estudo ter sido um escore ≥15, segundo análises da qualidade do sequenciamento e da porcentagem da taxa de erros de identificação de bases (Sanders, Murtha et al., 2012). O Grantham Score é um escore que identifica quanto uma modificação em determinada região do exon é deletéria para a função da proteína, isto é, se a variação ocorrer em sítios da proteína considerados conservados ao longo da evolução, ela é considerada deletéria. Escores acima de 85 são considerados muito deletérios para o funcionamento da proteína (O'roak, Vives et al., 2012).
Anexo B: Rede de interação proteína-proteína (IPP) de proteínas (genes) com mutações de novo (DNM) codificantes.
Treze genes da lista inicial com variações de novo codificantes encontradas em probandos com TOC estão conectados na rede IPP. As proteínas com um círculo verde são os genes da lista inicial. Como usamos o interatoma para fazer a rede, os símbolos representados nas redes são relacionados a proteínas. Estas proteínas são expressas pelos genes de interesse neste estudo. Os nós da rede são proteínas são mostradas na rede por círculos com o nome de cada proteína de referência. As linhas da rede são também chamadas de arestas, e são elas que mostram a interação entre os nós (proteínas) da rede. As proteínas (genes) em rosa são as consideradas corretoras (brokers), isto é, aquelas com alto grau de conectores. Estas conexões são feitas entre proteínas que não seriam conectadas se não existisse a broker. Já as pontes (bridges), que são as proteínas consideradas pontes, conectam agrupamentos de nós bem conectados. Elas são representadas pela cor azul.
Anexo C: Lista de genes (proteínas) como variações de novo (DNM) codificantes ordenados pelo algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (DADA)
Genes Ordenação Interação Coeficiente de agrupamento
Componente da rede
Gene corretor (proteína broker)
KCNJ12 1 16 0,19167 sim sim
WWP1 2 26 0,01231 sim sim
GANAB 3 26 0,04923 sim sim
CMYA5 4 5 0,01293 sim não
CR1 5 13 0,01282 sim não
MYO10 6 8 0 sim não
AP1G1 7 26 0,02154 sim sim
ERCC6 8 11 0,14545 sim não
SNUPN 9 8 0 sim não
CIITA 10 12 0,09091 sim não
BAMBI 11 1 0 sim não
CR1 12 13 0,01282 sim sim
Foram ordenados 12 genes da lista inicial. Um deles (BANK1) não foi associado com os genes candidatos para TOC.
Anexo D: Rede dos resultados do algoritmo de grau informativo para redes baseado na priorização de genes relacionado com doenças (Degree-Aware Algorithms for Network-Based Disease Gene Prioritization - DADA) com variações de novo (DNM) codificantes
Legenda: Lista inicial de genes (proteínas) com variações de novo codificantes, em vermelho, e genes (proteínas) com SNPs comuns associados com o risco para transtorno obsessivo-compulsivo (TOC) em verde. As proteínas consideradas corretores (brokers estão em rosa. As pontes (bridges), cor azul.
Anexo E: Ciclo do aminoácido gama Glutamil
Ciclo do aminoácido gama Glutamil, gerado pelo IPA (Ingenuity Pathway Analysis program). Esta via biológica foi significativa para os genes com SNVs raras (frequência de ocorrência menor ou igual a 0,5%).