Computao da Seleo Genmica Ampla (GWS)

Download Computao da Seleo Genmica Ampla (GWS)

Post on 06-Jan-2017

217 views

Category:

Documents

3 download

TRANSCRIPT

  • Documentos 210

    Embrapa Florestas

    Colombo, PR

    2010

    ISSN 1679-2599

    Dezembro, 2010

    Empresa Brasileira de Pesquisa AgropecuriaEmbrapa FlorestasMinistrio da Agricultura, Pecuria e Abastecimento

    Marcos Deon Vilela de ResendeMrcio Fernando Ribeiro Resende JniorAurelio Mendes AguiarJupiter Israel Muro AbadAlexandre Alves MissiaggiaCarolina Sansaloni Cesar PetroliDario Grattapaglia

    Computao da Seleo Genmica Ampla (GWS)

  • Embrapa 2010

    Exemplares desta publicao podem ser adquiridos na:

    Embrapa FlorestasEstrada da Ribeira, Km 111, Guaraituba, 83411-000, Colombo, PR - BrasilCaixa Postal: 319Fone/Fax: (41) 3675-5600www.cnpf.embrapa.brsac@cnpf.embrapa.br

    Comit de Publicaes da UnidadePresidente: Patrcia Pvoa de MattosSecretria-Executiva: Elisabete Marques Oaida Membros: Antonio Aparecido Carpanezzi, Claudia Maria Branco de Freitas Maia, Cristiane Vieira Helm, Elenice Fritzsons, Jorge Ribaski, Jos Alfredo Sturion, Marilice Cordeiro Garrastazu, Srgio Gaiad

    Superviso editorial: Patrcia Pvoa de MattosReviso de texto: Mauro Marcelo BertNormalizao bibliogrfica: Francisca RascheEditorao eletrnica: Mauro Marcelo Bert

    1a edio1a impresso (2010): sob demanda

    Todos os direitos reservadosA reproduo no-autorizada desta publicao, no todo ou em parte, constitui violao dos direitos autorais (Lei no 9.610).

    Dados Internacionais de Catalogao na Publicao (CIP)Embrapa Florestas

    Computao da Seleo Genmica Ampla (GWS) [recurso eletrnico] / Marcos Deon Vilela de Resende ... [et al.]. Dados eletrnicos - Colombo : Embrapa Florestas, 2010.CD-ROM. - (Documentos / Embrapa Florestas, ISSN 1679-2599 ;

    210)

    1. Melhoramento vegetal 2. Melhoramento animal. 3. Seleo genotpica. 4. Seleo fenotpica. 5. Software. I. Resende, Marcos Deon Vilela de. II. Resende Jnior, Mrcio Fernando Ribeiro. III. Aguiar, Aurelio Mendes. IV. Abad, Jupiter Israel Muro. V. Missiaggia, Alexandre Alves. VI. Sansaloni, Carolina. VII. Petroli, Cesar. VIII. Grattapaglia, Dario. IX. Srie.

    CDD 631.52 (21. ed.)

  • Autores

    Marcos Deon Vilela de ResendeEstatstico, Doutor,Pesquisador da Embrapa Florestasdeon@cnpf.embrapa.br

    Mrcio Fernando Ribeiro Resende JniorEngenheiro Florestal, Mestre,Doutorando na Universidade da Flridamresende@ufl.edu

    Aurelio Mendes AguiarEngenheiro Agrnomo, Doutor,Pesquisador da Fibriaaurelio.aguiar@fibria.com.br

    Jupiter Israel Muro AbadEngenheiro Florestal, Doutor,Pesquisador da Fibriajmuro@fibria.com.br

  • Alexandre Alves MissiaggiaEngenheiro Florestal, Doutor,Pesquisador da Fibriaamissiaggia@fibria.com.br

    Carolina Paola Sansaloni Bacharel em Gentica, MestreDoutorando em Biologia MolecularUniversidade de Brasliacarosansaloni@hotmail.com

    Cesar Daniel PetroliBacharel em Gentica, MestreDoutorando em Biologia MolecularUniversidade de Brasliapetrolic@hotmail.com

    Dario GrattapagliaEngenheiro Florestal, Doutor,Pesquisador da Embrapa Recursos Genticos e Biotecnologiadario@cenargen.embrapa.br

  • Apresentao

    A seleo genmica ampla uma metodologia que, de forma pioneira, integra as tecnologias genmicas e as ferramentas da gentica quantitativa e do melhoramento, propiciando um grande salto qualitativo nos sistemas de avaliao gentica. Esta nova abordagem experimental vem rapidamente mudando os paradigmas do melhoramento gentico de animais domsticos e plantas, causando uma verdadeira revoluo na nossa capacidade de prever fentipos e, com isso, aumentar a acurcia seletiva em idade precoce, maximizando o ganho gentico por unidade de tempo.

    A presente publicao aborda os mtodos estatsticos, as estratgias computacionais e softwares para a implementao prtica da seleo genmica ampla no melhoramento gentico. Elaborada por uma equipe interinstitucional, envolvendo a academia e a iniciativa privada, apresenta tambm um exemplo prtico de sua aplicao no melhoramento do eucalipto. Assim, trata-se de uma contribuio difuso, ensino e aplicao operacional da seleo genmica nos programas de melhoramento de plantas e animais em andamento no Pas.

    Helton Damin da SilvaChefe-Geral

  • Sumrio

    Mtodos para GWS ......................................................9Teoria dos mtodos de regresso .................................16Computao do mtodo Random (Ridge) Regression BLUP (RR-BLUP/GWS) .........................................................18Fentipos corrigidos ...................................................23Frequncias allicas, varincia dos marcadores e herdabilidade .............................................................27

    Marcadores codominantes (SNP) Modelo genotpico ................ 27

    Marcadores dominantes (DArT) - Modelo genotpico ................... 30

    Marcadores codominantes (SNP) Modelo gamtico ou allico .... 32

    Nmero de marcadores com efeitos significativos ..........34Populaes de estimao, validao e seleo ...............45Populao de validao e Jacknife ................................48Correlao e regresso entre valores genticos preditos e fentipos na populao de validao ............................49Anlise de associao na GWAS .................................50Software Selegen Genmica: Random (Ridge) Regression BLUP: RR-BLUP/GWS ..................................................54Exemplo aplicado ao melhoramento do eucalipto ............65Softwares em R .........................................................72Referncias ..............................................................75

  • Computao da Seleo Genmica Ampla (GWS)Marcos Deon Vilela de ResendeMrcio Fernando Ribeiro Resende JniorAurelio Mendes AguiarJupiter Israel Muro AbadAlexandre Alves MissiaggiaCarolina Sansaloni Cesar PetroliDario Grattapaglia

    Mtodos para GWS

    A seleo genmica ampla (GWS) ou seleo genmica (GS) foi proposta por Meuwissen et al. (2001) como uma forma de aumentar a eficincia e acelerar o melhoramento gentico. A GWS enfatiza a predio simultnea (sem o uso de testes de significncia para marcas individuais) dos efeitos genticos de milhares de marcadores genticos de DNA (SNP, DArT, microssatlites) dispersos em todo o genoma de um organismo, de forma a capturar os efeitos de todos os locos (tanto de pequenos quanto de grandes efeitos) e explicar toda a variao gentica de um carter quantitativo. A condio fundamental para isso que haja desequilbrio de ligao, em nvel populacional, entre alelos dos marcadores e alelos dos genes que controlam o carter. A predio dos efeitos genticos realizada com base em dados genotpicos e fenotpicos de indivduos pertencentes a uma amostra da populao de seleo.

    Esses efeitos genticos dos marcadores sobre fentipos de caracteres quantitativos so somados e usados na predio de valores genticos de indivduos apenas genotipados, candidatos seleo em programas de melhoramento gentico. A predio

  • 10 Computao da Seleo Genmica Ampla (GWS)

    e a seleo podem ser realizadas em fases muito juvenis de plantas e animais, acelerando assim o processo de melhoramento gentico. Adicionalmente, a prpria predio tende a ser mais acurada por considerar o real parentesco gentico dos indivduos em avaliao, em detrimento do parentesco mdio esperado matematicamente (RESENDE, 2007). A GWS propicia uma forma de seleo precoce direta (SPD), pois, atua precocemente sobre genes expressos na idade adulta. Ao contrrio, a seleo precoce tradicional indireta, pois atua (via avaliao fenotpica) sobre genes ativados na idade precoce, esperando que esses informem parcialmente sobre genes expressos na idade adulta. Assim, a SPD propiciada pela GWS especialmente importante para o melhoramento de organismos perenes como animais, espcies florestais, fruteiras (e outras frutferas), forrageiras, cana-de-acar, dentre outras.

    Em resumo, a superioridade da GWS sobre a seleo baseada em fentipos pode ser atribuda a quatro fatores: (i) uso da matriz de parentesco real e prpria de cada carter, fato que aumenta a acurcia seletiva; (ii) viabilizao da SPD, que aumenta o ganho gentico por unidade de tempo; (iii) permisso da avaliao repetida de cada alelo (propicia repetio experimental) sem o uso de testes clonais e de prognies, fato que aumenta a acurcia seletiva; (iv) uso de maior nmero de informaes, combinando trs tipos de informao (fenotpica, genotpica e genealgica) para corrigir e desregressar os dados e fazer a anlise genmica, fato que aumenta a acurcia.

    A GWS um produto do terceiro milnio. Aps a proposio da GWS em 2001, o procedimento permaneceu discreto at 2007, quando vrios trabalhos abordaram o mtodo e sua acurcia no melhoramento animal e vegetal (FERNANDO et al., 2007; GODDARD; HAYES, 2007; MEUWISSEN, 2007; BERNARDO; YU, 2007; RESENDE 2007). Outros trabalhos relatam que a GWS o novo paradigma em gentica quantitativa (RESENDE,

  • 11Computao da Seleo Genmica Ampla (GWS)

    2008; GIANOLA et al., 2009), melhoramento de gado de leite (HAYES et al., 2009; VAN RADEN, 2008; VAN RADEN et al., 2009), de aves (GONZALEZ-RECIO et al., 2009), de plantas anuais (HEFFNER et al., 2009), de espcies florestais (RESENDE et al. 2008; GRATTAPAGLIA; RESENDE, 2010) e de outras plantas perenes (DIAS; RESENDE, 2009).

    Vrios mtodos de predio de valores genticos genmicos foram propostos: quadrados mnimos (LS), BLUP/GWS, BayesA e BayesB (MEUWISSEN et al., 2001), regresso kernel no paramtrica via modelos aditivos generalizados (GIANOLA et al., 2006), aprendizado de mquina (LONG et al., 2007), regresso RKHS (Reproducing Kernel Hilbert Spaces) (GIANOLA et al., 2008), LASSO Bayesiano (PARK; CASELLA, 2008; CAMPOS et al., 2009), Bayes B Acelerado (MEUWISSEN, 2009), Bayes C, BayesC, BayesD, BayesD (HABIER et al., 2010), Regresso via Quadrados Mnimos Parciais (PLSR) (SOLBERG et al., 2009) e Regresso via Componentes Principais (PCR) (SOLBERG et al., 2009). Os mtodos BLUP (regresso aleatria), LASSO (Least Absolute Shrinkage and Selection Operator) e Bayes A e B pertencem classe de regresso explcita. Por outro lado, o mtodo RKHS pertence classe de regresso implcita e um mtodo semiparamtrico (GIANOLA; VAN KAAM, 2008; GIANOLA; CAMPOS, 2009).

    Conforme Resende (2007, 2008), essas abordagens diferem na suposio sobre o modelo gentico associado ao carter quantitativo. O BLUP assume o modelo infinitesimal com muitos locos de pequenos efeitos; o AM assume que existe um nmero limitado de genes e de SNPs a serem ajustados; o mtodo BayesB intermedirio entre esses dois, assumindo poucos genes de grandes efeitos e muitos genes com pequenos efeitos. No mtodo BayesB muitos efeitos de marcadores so assumidos como zero, a priori. Isso reduz o tamanho do genoma por meio da concentrao nas partes do mesmo onde existem QTLs. O

  • 12 Computao da Seleo Genmica Ampla (GWS)

    melhor mtodo aquele que reflete melhor a natureza biolgica do carter polignico em questo, em termos de efeitos gnicos.

    O mtodo quadrados mnimos (regresso fixa) ineficiente devido a: impossibilidade de estimar todos os efeitos simultaneamente, pois o nmero de efeitos a estimar maior do que o nmero de dados; estimando um efeito de cada vez e verificando a sua significncia, conduz a superestimativas dos efeitos significativos; a acurcia do mtodo baixa; somente QTLs de grande efeito sero detectados e usados e, consequentemente, nem toda a variao gentica ser capturada pelos marcadores.

    O mtodo de quadrados mnimos assume distribuio a priori para os QTLs, com varincia infinitamente grande, fato que incompatvel com a conhecida varincia gentica total. O BLUP/GWS assume os efeitos de QTL com distribuio normal com varincia constante para todos os segmentos cromossmicos. Esse mtodo contorna, por meio da estimao simultnea dos efeitos de todos os marcadores, a questo da necessidade de estimao de um grande nmero de efeitos a partir de um tamanho amostral restrito e, adicionalmente, a questo do fato de que muitos efeitos mostram colinearidade advinda do desequilbrio de ligao entre os prprios marcadores.

    A distribuio dos efeitos de QTL conhecida em poucos caracteres e espcies. Em gado bovino leiteiro, Goddard e Hayes (2007) relatam a presena de 150 QTLs para o carter produo de leite e estimaram a distribuio de seus efeitos como aproximadamente exponencial (HAYES; GODDARD, 2009). Com distribuio exponencial e no muitos efeitos com valor zero, o melhor estimador dos efeitos allicos denominado LASSO (TIBSHIRANI, 1996). Entretanto, com muitos efeitos com valor zero, o LASSO no adequado. Usai et al. (2009) compararam o LASSO com BLUP e Bayes A empregando 156

  • 13Computao da Seleo Genmica Ampla (GWS)

    SNPs significativos. As acurcias obtidas foram das ordens de 0,89, 0,75 e 0,84, respectivamente. Assim, o LASSO uma boa opo quando se usa um nmero limitado de marcadores.

    Comparaes entre os mtodos de predio de valores genticos genmicos tm sido realizadas. Meuwissen et al. (2001) concluram pela superioridade terica do mtodo Bayes B, o qual mostrou-se ligeiramente superior ao BLUP. Hayes et al. (2009) avaliaram a efetividade prtica da seleo genmica em gado de leite nos Estados Unidos, Austrlia e Nova Zelndia. Concluram que o mtodo BLUP mostrou-se aproximadamente igual a outros mtodos mais complexos, em termos de acurcia. Isso ocorre para caracteres em que o modelo infinitesimal (muitos genes de pequenos efeitos) se aplica. Adicionalmente, o mtodo BLUP vantajoso porque a nica informao a priori necessria uma estimativa da varincia gentica aditiva do carter. Os autores relataram tambm a importncia da incluso do efeito polignico no modelo de avaliao gentica, como forma de capturar e selecionar QTLs de baixa frequncia no capturados pelos marcadores.

    Habier et al. (2007) compararam os mtodos de quadrados mnimos (denominado por eles como regresso fixa ou FR-LS), BLUP (denominado por eles como regresso aleatria ou RR-BLUP) e Bayes B, em termos de acurcia seletiva na seleo em longo prazo, aps vrias geraes depois da predio dos efeitos genticos dos marcadores. Nessa situao, a acurcia tende a diminuir devido modificao das relaes de parentesco (em relao ao parentesco na gerao de estimao dos efeitos genmicos), mas h um componente persistente da acurcia devido ao LD. Os resultados mostraram que o decrscimo na acurcia devido modificao das relaes de parentesco maior no mtodo RR-BLUP. Inicialmente, os mtodos RR-BLUP e Bayes B apresentaram acurcia similar, mas, aps 11 geraes, o mtodo Bayes B superou o RR-BLUP.

  • 14 Computao da Seleo Genmica Ampla (GWS)

    Os mtodos bayesianos esto associados a sistemas de equaes no lineares e as predies no lineares podem ser melhores quando os efeitos de QTL no so normalmente distribudos, devido presena de genes de efeitos maiores. As predies lineares associadas ao RR-BLUP assumem que todos os marcadores contribuem igualmente para a variao gentica (ausncia de genes de efeitos maiores).

    Gonzalez-Recio et al. (2008) compararam mtodos no paramtricos ou semiparamtricos (RKHS), regresso bayesiana e BLUP/GWS em termos de eficincia na seleo genmica. Concluram que o mtodo da regresso RKHS (Reproducing Kernel Hilbert Spaces) apresentou melhor capacidade preditiva do que os demais. Esse mtodo equivale ao BLUP modelo animal com a matriz de parentesco substituda pelos kernels (RESENDE, 2008). O mtodo no paramtrico RKHS parece ter maior capacidade preditiva quando aplicado a dados reais (GIANOLA et al., 2009). O Lasso Bayesiano tambm interessante pois usa amostragem de Gibbs, uma vez que se conhece a distribuio condicional completa. Outros mtodos foram avaliados por Solberg et al. (2009): Regresso via quadrados mnimos parciais (PLSR) e Regresso via componentes principais (PCR). Concluram que esses so mais simples e rpidos computacionalmente, porm menos acurados que o Bayes B, com acurcias da ordem de 0.68 (PLSR e PCR) e 0.84 (Bayes B).

    Gianola et al. (2009) fazem uma anlise crtica dos mtodos associados a modelos hierrquicos bayesianos (Bayes A e B) especificamente em relao s suas formulaes em termos dos hiperparmetros que propiciam varincias especficas para cada marcador. Segundo os autores, nenhum dos mtodos permite o aprendizado bayesiano sobre essas varincias para prosseguir para longe das prioris. Em outras palavras, os hiperparmetros a priori para essas varincias sempre tero influncia na extenso do shrinkage produzido nos efeitos dos marcadores. O usurio

  • 15Computao da Seleo Genmica Ampla (GWS)

    do mtodo pode controlar a quantidade de shrinkage apenas arbitrariamente, por meio da variao nos parmetros e S(associados distribuio qui-quadrado invertida assumida como priori). Segundo os autores, o mtodo Bayes B no bem formulado no contexto bayesiano. Isto porque designar a priori que 02 =gi , no conduz necessariamente a gi = 0, conforme inteno original de Meuwissen et al. (2001), em que gi o efeito gentico do loco i. Sugerem ento que o estado zero seja especificado ao nvel dos efeitos e no ao nvel das varincias. Assim, probabilidade de mistura poderia ser atribuda uma distribuio a priori Beta. Surge ento, o mtodo Bayes C que vantajoso e permite especificar uma distribuio a priori para , permitindo a modelagem da distribuio dupla exponencial. Os mtodos bayesianos para a GWS so tratados com mais detalhe em Resende (2008).

    Vrios outros mtodos bayesianos foram propostos (Bayes C, Bayes D, Bayes D, conforme Habier et al., 2010), todos eles com o propsito de facilitar a aplicao do mtodo Bayes B que conceitualmente ideal, mas computacionalmente lento. Habier et al. (2010) relataram que nenhum dos mtodos bayesianos so claramente superiores dentre eles; entretanto, o Bayes B, Bayes C e Bayes D apresentam a vantagem de propiciar informao sobre a arquitetura gentica do carter quantitativo e identificar as posies de QTL por modelagem da frequncia de SNP.

    Os mtodos bayesianos so superiores quando a distribuio dos efeitos dos QTL leptocrtica (curtose positiva), devido presena de genes de grandes efeitos. Com distribuio normal dos efeitos dos QTL, o mtodo RR-BLUP igualmente eficiente. Provavelmente, isso se aplica para a maioria dos caracteres quantitativos, pois, genes de grandes efeitos tendem a ser fixados ou eliminados e no mantidos em nvel polimrfico nas populaes. O RR-BLUP assume iguais e pequenas herdabilidades por loco, causando uma alta regresso em QTL de grandes efeitos, os quais deveriam receber herdabilidades mais altas.

  • 16 Computao da Seleo Genmica Ampla (GWS)

    O uso de um nico

    para todos os marcadores no conduz nessariamente ao mesmo shrinkage para todos, pois, a variao nas frequncias allicas entre marcadores podem conduzir a diferentes graus de shrinkage.

    Teoria dos mtodos de regresso

    Em um problema de regresso tem-se que a varivel dependente y dada como funo de uma varivel preditora (x) e vetor de erros aleatrios (e), segundo o modelo exy += ' . No contexto da seleo genmica, define-se x como um vetor de gentipos marcadores codominantes codificados como 0, 1 ou 2, de acordo com o nmero de cpias de um dos alelos do loco marcador. E definido como um vetor de coeficientes de regresso que contemplam os efeitos dos marcadores (via desequilbrio de ligao com os genes) no carter fenotpico y.

    Usando esperana condicional, a equao de regresso dada por:

    )|(' xyExy ==

    Isso implica

    ]),|()([/]),|()([),|( == dxyppdxyppyxE

    em que )(p a funo densidade de probabilidade de e

    ),|( xyp a funo de verossimilhana de y.

    Assim, a predio de y depende de )(p , ou seja, da distribuio dos efeitos (via LD com os QTLs) dos marcadores. Essa distribuio pode ser tratada como informao ou distribuio a priori no contexto bayesiano ou como varivel aleatria no contexto frequentista. Se ),0(~ 2 N ,

    )/(// 2222 ngeige ==

  • 17Computao da Seleo Genmica Ampla (GWS)

    BLUP de e y BLUP de y. Isto implica que os efeitos de todos os marcadores so tomados da mesma distribuio. Alternativamente, pode ser assumido que ),0(~ 2

    iNi , em

    que i tomado de uma distribuio qui-quadrado invertida, segundo o enfoque bayesiano. Nesse caso, isso implica que grande nmero de marcadores apresenta efeitos pequenos e poucos marcadores apresentam efeitos grandes.

    Esse mtodo BLUP para os coeficientes de regresso denominado regresso aleatria ou regresso de cumeeira (Ridge Regression) (RR-BLUP). Os coeficientes de regresso ridge so definidos como aqueles que minimizam a soma de quadrados penalizada dada por

    ==

    +n

    ii

    N

    j

    n

    iijij xyN

    1

    2

    1

    2)()/1(

    em que o parmetro de penalizao (ou shrinkage) ou parmetro ridge, n o nmero de marcadores e N o nmero de indivduos. O primeiro termo da equao a soma de quadrados dos resduos da regresso e o segundo termo a penalizao, a qual depende da magnitude dos coeficientes de regresso via =

    n

    ii

    1

    2 .

    Outro mtodo relacionado o LASSO, que combina shrinkage (regularizao) com seleo de variveis e envolve o seguinte problema de otimizao, via minimizao de

    ||)()/1(11

    2 ==

    +n

    ii

    N

    j

    n

    iijij xyN , em que ||

    1=

    n

    ii a

    soma dos valores absolutos dos coeficientes de regresso. As solues em que os coeficientes de regresso se distanciam de zero sofrem penalizao. O componente ||

    1=

    n

    ii

    regulariza a regresso sem penalizar muito. O parmetro de suavizao controla a intensidade da regularizao. O LASSO pode ser implementado tambm via abordagem bayesiana, em que controla a preciso da distribuio a priori atribuda aos coeficientes de regresso.

  • 18 Computao da Seleo Genmica Ampla (GWS)

    Computao do mtodo Random (Ridge) Regression BLUP (RR-BLUP/GWS)

    O mtodo RR-BLUP/GWS usa preditores do tipo BLUP, mas os efeitos de marcadores no so ajustados como variveis classificatrias e sim como variveis explicativas ou explanatrias. Assim, so variveis regressoras e so ajustadas como covariveis de efeitos aleatrios, ou seja, os fentipos so regressados com base nessas covariveis. O fato de serem covariveis e no variveis classificatrias, conduz a diferentes matrizes de incidncia e consequentemente diferentes algoritmos computacionais em relao ao BLUP tradicional. O nome mais apropriado regresso aleatria (random regression) do tipo BLUP (RR-BLUP) aplicado seleo genmica ampla (RR-BLUP/GWS). A tcnica da regresso aleatria um tipo especial da regresso de cumeeira (ridge regression).

    Os estimadores associados regresso aleatria e regresso de cumeeira promovem shrinkage ditado por uma funo da quantidade . Quando no conhecido, a escolha arbitrria do mesmo leva ao mtodo de regresso ridge regression (RR). Se o parmetro de regresso for associado a )/(// 2222 ngeige ==tem-se a regresso aleatria BLUP para o efeito do segmento cromossmico i, em que 2 ig a varincia gentica associada ao loco ou segmento i e 2g e

    2e so a varincia gentica do

    carter e varincia residual, respectivamente. A quantidade n desconhecida a priori, mas pode ser inferida conforme descrito adiante. O parmetro de penalizao pode tambm ser determinado por via iterativa ou sintonia, escolhendo-se aquele que maximiza a correlao entre valor fenotpico e valor gentico predito na validao cruzada. Whittaker et al. (2000) e Meuwissen et al. (2001) foram pioneiros em propor a predio simultnea dos efeitos dos marcadores, sem o uso de testes de significncia para marcas individuais. Isto contrasta com

  • 19Computao da Seleo Genmica Ampla (GWS)

    o mtodo da MAS proposto por Lande e Thompson (1990) e discutido por Gianola et al. (2003).

    A distino entre regresso fixa, regresso ridge e regresso aleatria est associada ao parmetro de penalizao *, o qual dado por 22* /)1( hh= . Valores pequenos de * j so suficientes para reduzir o impacto da multicolinearidade entre as covariveis presente na matriz ZZ, que aproximadamente singular. Valor de * igual a zero (valor de h2 igual a 1) caracteriza a regresso fixa. Valores de * pequenos (0,01 a 1) caracterizam a regresso ridge e valores altos de * (maiores que 0,1) caracterizam a regresso aleatria (Tabela 1). No caso do mtodo RR-BLUP, um mesmo parmetro de penalizao aplicado para todas as marcas, ao passo que o mtodo Bayes B permite definir * especficos para cada marcador.

    Tabela 1. Classificao dos tipos de regresso em funo do parmetro de penalizao.

    Tipo de Regresso Penalizao 22* /)1( hh=

    Herdabilidade Individual

    )1/(1 *2 +=hFixa 0,00 1

    Ridge; Aleatria 0,11 0,9

    Ridge; Aleatria 0,25 0,8

    Ridge; Aleatria 0,43 0,7

    Ridge; Aleatria 0,67 0,6

    Ridge; Aleatria 1,00 0,5

    Aleatria 1,50 0,4

    Aleatria 2,33 0,3

    Aleatria 4,00 0,2

    Aleatria 9,00 0,1

    Aleatria 99,0 0,01

    Aleatria 999,0 0,001

  • 20 Computao da Seleo Genmica Ampla (GWS)

    A predio via RR-BLUP/GWS descrita a seguir com base em Resende (2007a; 2008). O seguinte modelo linear misto geral ajustado para estimar os efeitos dos marcadores:

    y = Xb + Zm + e,

    em que y o vetor de observaes fenotpicas, b o vetor de efeitos fixos, m o vetor dos efeitos aleatrios de marcadores e e refere-se ao vetor de resduos aleatrios. X e Z so as matrizes de incidncia para b e m.

    A matriz de incidncia Z contm os valores 0, 1 e 2 para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo diplide. Outra forma equivalente de codificar usar os valores -1, 0 e 1. Esse o modelo genotpico. Se clulas haplides (smen) so usadas, tem-se o modelo gamtico, e a matriz Z contm apenas os valores 0 e 1.

    As equaes genmicas de modelo misto para a predio de m via o mtodo RR-BLUP/GWS equivalem a:

    =

    + yZyX

    mb

    nIZZXZ

    ZXXX

    g

    e''

    )/(''

    ''

    2

    2

    O valor gentico genmico global do indivduo j dado por

    ==i

    iij mZyVGG ,

    em que Zi equivale a 0, 1 ou 2 para os gentipos aa, Aa e AA, respectivamente, para marcadores biallicos e codominantes como os SNPs. Para marcadores dominantes, AA e Aa ficam confundidos e deveriam receber um peso mdio de 1,33 na matriz Z, dado por 0,33 x 2 + 0,66 x 1.

    As equaes de predio apresentadas acima assumem a priori que todos os locos explicam iguais quantidades da variao

  • 21Computao da Seleo Genmica Ampla (GWS)

    gentica. Assim, a variao gentica explicada por cada loco dada por ng /

    2 , em que 2g a variao gentica total e n o nmero de locos (quando cada loco est perfeitamente marcado por uma s marca). A variao genotpica 2g pode ser estimada por REML sobre os dados fenotpicos da maneira tradicional ou pela prpria variao entre os marcadores ou segmentos cromossmicos de QTL, conforme descrito adiante.

    Verifica-se que no h necessidade de uso da matriz de parentesco. A matriz de parentesco baseada em pedigree usada no BLUP tradicional substituda por uma matriz de parentesco estimada pelos marcadores. Essa matriz de parentesco funo da prpria matriz ZZ presente nas equaes de modelo misto. Esse procedimento superior ao uso do pedigree, pois efetivamente captura a matriz de parentesco realizada para cada carter e no uma matriz de parentesco mdio associada ao pedigree. Por exemplo, a correlao gentica aditiva entre dois irmos completos, baseada em pedigree 0,5. Mas os marcadores podem indicar que o valor verdadeiro uma frao entre 0 e 1. O valor 0,5 esperado em mdia. Mas a correlao pode ser 0, 0,5 ou 1,0, em cada loco, em funo do nmero de alelos idnticos compartilhados entre os dois irmos.

    A matriz de parentesco realizada pode ser tambm computada parte e incorporada nas equaes de modelo misto do BLUP tradicional, conforme o modelo (iii) descrito a seguir. Nesse caso, ela dada por ])1(2[/)'( ** =

    n

    iii ppZZA

    (para SNPs sob modelo genotpico) em que pi a frequncia de um dos alelos do loco i e Z* refere-se matriz Z corrigida para suas mdias em cada loco (2pi). Para garantir A como uma matriz positiva definida, pode-se obter Ap = A + 10-6 I, em que I uma matriz identidade. O coeficiente de endogamia genmico para o indivduo i dado por Aii 1. Outra forma de obter A via '** ZDZA = , em que D diagonal com Dii dado

  • 22 Computao da Seleo Genmica Ampla (GWS)

    por }])1(2[{/1 iiii ppnD = , em que n o nmero de marcadores (VAN RADEN, 2008).

    A diagonal da matriz ZZ contempla o parentesco de um indivduo com ele mesmo e os elementos fora da diagonal mostram o nmero de alelos compartilhados por parentes. A correlao de Wright entre parentes pode ser obtida dividindo esses elementos fora da diagonal pelo produto das razes quadradas dos respectivos elementos da diagonal. Por outro lado, a diagonal da matriz ZZ mostra quantos indivduos herdaram cada alelo e elementos fora da diagonal indicam quantas vezes dois alelos diferentes foram herdados pelo mesmo indivduo. Usando mtodos genmicos, o conceito de endogamia em um loco neutral no mais vlido, pois so consideradas medidas de parentesco nos locos do prprio carter sob seleo. As medidas tradicionais de endogamia baseadas em pedigree resultam em perda de diversidade muito mais variveis.

    A predio de valores genticos genmicos via BLUP pode ser computada via trs mtodos equivalentes (VAN RADEN, 2008):

    Via RR-BLUP, conforme especificado acima, em que:

    )(')'( 111 bXyRZIZRZZmZg +== , visto que )(')'( 111 bXyRZIZRZm += . R uma matriz diagonal

    de pesos para ponderar y com diferentes confiabilidades. Com confiabilidades altas e homogneas (maiores que 0,85), pode-se considerar R = I e o sistema simplifica para

    )(')'( 1 bXyZIZZm += .

    Via BLP ou ndice de seleo (com A genmica e b estimado via quadrados mnimos generalizados, o que garantido quando y contem valores genticos desregressados), em que:

    )(])/([ 122 bXyRAAg ge +=

    .

  • 23Computao da Seleo Genmica Ampla (GWS)

    Se necessrio os efeitos dos marcadores podem ser obtidos por )(])/([}])1(2[/'{ 122 bXyRAppZm ge

    n

    iii +=

    .

    Via BLUP Modelo Equivalente, em que:

    )(])/([ 112211 bXyRARg ge +=

    Para implementao do procedimento RR-BLUP/GWS so necessrios: X, Z, y e )/(// 2222 ngeige == . O vetor y refere-se a fentipos corrigidos; a matriz Z refere-se contagem de doses dos marcadores moleculares; X um vetor conhecido composto de valores 1; depende de componentes de varincia (herdabilidade ou confiabilidade da seleo) e do nmero de segmentos cromossmicos. A seguir so descritos cada um desses elementos, os quais so tratados em Meuwissen et al. (2001), Resende (2008), Garrick et al. (2009), Gianola et al. (2009), Goddard (2009) e Hayes et al. (2009).

    Fentipos corrigidos

    Os fentipos devem ser corrigidos visando eliminar os efeitos dos genitores e desregressar os valores genticos. Esses devem ser desregressados por trs motivos: (i) no pode haver duas regresses: uma baseada em pedigree e outra baseada em marcadores; (ii) a matriz A baseada em pedgree menos precisa que a ZZ baseada em marcas; (iii) influncia de genes de grande efeito presentes em um dos genitores.

    Adicionalmente, devem ser corrigidos para os efeitos genticos dos genitores, trabalhando-se basicamente com o efeito da segregao mendeliana desregressada, j que o dado ideal para a populao de treinamento deve ser o mrito gentico verdadeiro de indivduos no aparentados. E o efeito da segregao mendeliana proporciona isso: anlise da associao de alelos de marcas e de QTLs, ou seja, desequilbrio de ligao (LD) livre de genealogia. As ferramentas genmicas propiciam

  • 24 Computao da Seleo Genmica Ampla (GWS)

    uma inspeo direta da segregao mendeliana ao nvel do cromossomo.

    Outra forma explcita de se fazer isso, parcialmente, a considerao do pedigree via ajuste de g*, o vetor de efeitos polignicos. Sem a correo mencionada acima ou o ajuste de g*, os marcadores podem estar capturando apenas o parentesco entre os indivduos e no necessariamente o desequilbrio de ligao com os genes propriamente ditos. Nesse caso, a acurcia da validao em uma amostra independente (indivduos de outras famlias) da populao e, tambm, em indivduos de outras geraes poder ser baixa, ao contrrio do que teria sido predito em uma validao em amostra dependente.

    O procedimento de obteno dos valores fenotpicos desregressados e corrigidos para os efeitos genticos dos genitores envolve os seguintes passos:

    (i) Definio do sistema de equaes associado predio do valor gentico de um indivduo i ( ig ) e do valor gentico mdio de seus genitores j e k ( 2/)( kjmg ggg += ):

    =

    ++

    i

    mg

    i

    mg

    ii

    mgmg

    yy

    gg

    ZZZZ

    2224

    *'*

    **'

    , onde:

    22* /)1( hh= , em que h2 a herdabilidade ao nvel de indivduo.

    mgmg ZZ' : contedo de informao associado mdia dos

    genitores.

    ii ZZ' : contedo de informao associado ao indivduo (mais

    informaes de seus descendentes ou clones).

    img yey : informao fenotpica corrigida para os efeitos fixos associada mdia dos genitores e ao indivduo, respectivamente.

  • 25Computao da Seleo Genmica Ampla (GWS)

    (ii) Obteno da quantidade desconhecida gmgm ZZ' :

    2/12**' )/61(5.0)45.0( ++=mgmg ZZ , em que:

    )5.0(/1 2mgr=

    )1(/)5.0( 22 img rr =

    4/)( 222 kgjgmg rrr += : confiabilidade associada ao valor gentico mdio predito dos genitores j e k.

    2ir : confiabilidade associada ao valor gentico predito do

    indivduo.

    (iii) Obteno da quantidade desconhecida ii ZZ' :

    )12(2 *'' += mgmgii ZZZZ

    (iv) Obteno da quantidade desconhecida iy :

    Resoluo para iy , do sistema

    =

    ++

    i

    mg

    i

    mg

    ii

    mgmg

    yy

    gg

    ZZZZ

    2224

    *'*

    **'

    .

    Assim, iiimgi gZZgy )2()2(*'* ++= , o qual representa a

    informao do indivduo, agora corrigida para o valor gentico mdio de seus genitores.

    (v) Obteno do valor gentico desregressado * ig :

    )(/ '* iiii ZZyg = .

    Assim, para obteno de * ig , necessita-se da herdabilidade h2, das confiabilidades (quadrado da acurcia) das avaliaes dos trs indivduos ( 2 jgr ,

    2kgr e

    2ir ) e dos efeitos genticos preditos dos

    trs indivduos ( ig , jg e kg ).

  • 26 Computao da Seleo Genmica Ampla (GWS)

    Considere um carter com h2 de 0,20 e a avaliao gentica de trs indivduos onde foram obtidos os seguintes resultados: ig = 18, jg =13 e kg = 5;

    2ir = 0,70;

    2jgr = 0,90 e

    2kgr = 0,80. Assim,

    so obtidos:

    524,04/)08,009,0(4/)( 222 =+=+= kgjgmg rrr ;

    92/)531(2/)( =+=+= kjmg ggg ;

    42,0/8,0/)1( 22* === hh ;

    3333,31)524,05,0(/1)5,0(/1 2 === mgr ;

    52,0)07,01(/)524,05,0()1/()5,0( 22 === img rr .

    Com base nesses valores e seguindo o passo (ii), calcula-se

    mgmg ZZ' :

    567,14)52,0/613333,31(45,0)43333,315,0(4)/61(5,0)45,0( 2/122/12**' =++=++= mgmg ZZ

    A seguir calcula-se o ii ZZ' seguindo o passo (iii):

    2144,6)152,02(42567,1452,0)12(2 *'' =+=+= mgmgii ZZZZ .

    Computa-se agora, seguindo o passo (iv), a quantidade 3249,78181)422144,6(9)42()2()2( *'* =++=++= iiimgi gZZgy

    E finalmente calcula-se o valor corrigido e desregressado, seguindo o passo (v):

    0871,922144,6/3249,781)(/ '* === iiii ZZyg

    Esse o valor do indivduo a ser usado na anlise genmica integrando o vetor y. Tal quantidade equivalente a

    *2* /)( imgii rgg = , ou seja, ao valor gentico individual corrigido para a mdia de seus genitores e desregressado pela quantidade

    9616,0)42144,6(/41)(/1 **'**2 =+=+= iii ZZr .

  • 27Computao da Seleo Genmica Ampla (GWS)

    Em caso de testes de prognie em uma s gerao, o valor individual corrigido para o valor gentico mdio de seus genitores e desregressado so dados pela expresso

    )5,05,0( * kji ggcWbXyg = , em que b e c so os efeitos estimados de blocos e de parcelas.

    Apenas desregressar por 2ir captura LD e parentesco. Seria necessrio ajustar o efeito polignico para remover a estruturao devida ao parentesco. Regressar por *2ir e corrigir para efeito dos genitores captura apenas LD, eliminando a correlao intraclasse entre os valores genticos preditos. Por esse motivo, o valor gentico genmico dos indivduos na populao de validao (visando ao cmputo da acurcia) so dados por * mZugu i +=+ . No se deve somar mgg . Por outro lado, na populao de estimao, visando seleo, deve-se computar

    ou fazer a predio de m

    usando os valores genticos desregressados, mas no corrigidos para os efeitos dos genitores e usar diretamente mZugu i +=+ . Na populao de seleo propriamente dita (onde apenas os gentipos dos marcadores esto disponveis), a seleo precoce deve basear-se diretamente em mZugu i +=+ , mas a acurcia da seleo calculada com base em * mZugu i +=+ , em que

    *m o vetor de efeitos preditos dos marcadores, obtido via * ig .

    Frequncias allicas, varincia dos marcadores e herdabilidade

    Marcadores codominantes (SNP) Modelo genotpico

    Varincias e padronizaesNesse caso, a matriz de incidncia Z contm os valores 0, 1 e 2 para o nmero de alelos do marcador (ou do suposto QTL) em um indivduo diplide.

    Com marcadores codominantes, a mdia e varincia da varivel Z associada matriz de incidncia so dadas por:

    * mZgugu mgi ++=+

  • 28 Computao da Seleo Genmica Ampla (GWS)

    Mdia da varivel Z = 0 x p2 + 1 x 2p(1-p) + 2 x (1-p)2 = 2p

    Varincia da varivel Z = Var (Z) = Var (Zi) = (0 2p)2 x p2 +

    (1 2p)2 x 2p(1-p) + (2 - 2p)2 x (1-p)2= 2p(1-p)

    Verifica-se que a varincia da varivel Z equivale ao grau de heterozigose ou frequncia de heterozigotos na populao. A raiz quadrada dessa varincia pode ser usada para padronizar os dados dos marcadores na matriz Z, da seguinte forma para cada elemento Zi da matriz, referente ao loco i:

    Zi = 0 se o indivduo homozigoto para o primeiro alelo (mm);

    Zi = 1/(Var(Zi))1/2 se o indivduo heterozigoto (Mm);

    Zi = 2/(Var(Zi))1/2 se o indivduo homozigoto para o segundo

    alelo no loco marcador (MM);

    Zi = 2pi /(Var(Zi))1/2 se o gentipo do marcador um dado

    perdido, em que 2pi vem do valor esperado E(Zi = 2 ou Zi = 1) = 2 x pi

    2 + 1 x 2pi(1-pi) = 2pi.

    A quantidade pi a frequncia do segundo alelo do marcador.

    Dessa forma, a varincia de Z com Zi ajustado igual a 1. Alternativamente, os numeradores de Zi podem ser subtrados pela mdia de Z (via 0-2p, 1-2p e 2-2p, respectivamente) obtendo-se uma varivel com mdia zero e varincia unitria.

    Sendo m o efeito do marcador na populao, a varincia devida ao marcador dada por Var(Zim) = Var(Zi) Var(m). Com a transformao acima, Var(Zi) = 1 e portanto, Var(Zim) = Var(m). Em outras palavras, modelando a varincia do efeito do marcador, modela-se diretamente a varincia do marcador, independentemente de sua frequncia. Mas, a padronizao no estritamente necessria.

  • 29Computao da Seleo Genmica Ampla (GWS)

    Relao entre varincia gentica e varincia dos marcadores

    A relao entre varincia gentica aditiva e varincia dos efeitos dos marcadores essencial na predio genmica. Do exposto acima, segue que Var(gi) = Var(Zim) = Var(Zi) Var(m) = 2pi(1-pi) Var(mi) = 2pi(1-pi) mi

    2 equivale varincia gentica devida ao loco i. Para vrios locos, a varincia gentica aditiva total dada por =

    n

    iiiig mpp22 )1(2 , a qual pode ser expressa tambm

    por

    =n

    iiig VU

    2 , em que )1(2 iii ppU = e 2ii mV =

    A covarincia entre U e V, denominada CUV dada por

    )/)()/(/)( =n

    i

    n

    iii

    n

    iiiVU nVnUnVUC

    .

    Rearranjando essa expresso tem-se

    )/)()( +=n

    i

    n

    iii

    n

    iVUii nVUCnVU , de forma que

    +==n

    ii

    n

    iii

    n

    iVUiig nmppCnVU /)(])1(2[

    22 .

    Sendo 22 /)( mn

    ii nm = , tem-se

    VU

    n

    imiig Cnpp += ])1(2[ 22 .

    Assim, a varincia entre marcadores ( 2m ) obtida por REML, as frequncias allicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obteno da varincia gentica aditiva total. Desse modo, a varincia gentica entre marcas, estimada pelo software Selegen Genmica-REML/BLUP/GWS, deve ser multiplicada pelo nmero de marcas e por 2p(1-p) e tambm acrescida de nCUV, para cmputo da varincia gentica aditiva total.

    Em alguns casos, CUV assume o valor zero (quando a mdia dos m equivale a zero) ou muito baixo. Em outros casos, a

  • 30 Computao da Seleo Genmica Ampla (GWS)

    quantidade 2im substituda por 2m , pois a esperana de

    2im

    a varincia do efeito do marcador, ou seja, 22 )( mimE = . Assim, muitas das aplicaes usam ])1(2[ 22 =

    n

    imiig pp e a

    varincia entre marcadores dada por

    ])1(2[/)( 22 =n

    iiiVUgm ppCn simplificada para

    ])1(2[/22 =

    n

    iiigm pp . Um exemplo completo apresentado

    no tpico Exemplo Aplicado no Melhoramento do Eucalipto.

    Matriz de parentesco genmico

    Sem padronizao prvia dos elementos de Z, tem-se

    ])1(2[/)'( ** =n

    iii ppZZA

    em que pi a frequncia de um dos alelos do loco i e PZZ =*

    onde P uma matriz com elementos 2pi na coluna i. Com padronizao prvia dos elementos de Z e centrando a mdia em zero tem-se 'ZZA = .

    Marcadores dominantes (DArT) - Modelo genotpico

    Varincias e padronizaesNesse caso, a matriz de incidncia Z contm os valores 0 ou 1 para ausncia ou presena de um dos alelos do marcador (ou do suposto QTL) em um indivduo diplide.

    Com marcadores dominantes, a mdia e varincia da varivel Z associada matriz de incidncia so dadas por:

    Mdia da varivel Z: 1 x p + 0 x (1-p) = p, em que p a frequncia do cdigo 1, que contempla MM e Mm de forma confundida.

    Var (Z) = Var (Zi) = Varincia da varivel Z: (1 p)2 x p + (0

    p)2 x (1-p) = p(1-p)

  • 31Computao da Seleo Genmica Ampla (GWS)

    Assim, a varivel Z tem distribuio Bernoulli com mdia p e varincia p(1-p). A raiz quadrada dessa varincia pode ser usada para padronizar os dados dos marcadores na matriz Z, da seguinte forma:

    Zi = 0 se a banda ausente no indivduo.

    Zi = 1/(Var(Zi))1/2 se a banda est presente no indivduo.

    Zi = pi /(Var(Zi))1/2 se o gentipo do marcador um dado perdido.

    A quantidade pi a frequncia do cdigo 1.

    Relao entre varincia gentica e varincia dos marcadores

    No caso de marcadores dominantes, tem-se que Var(gi) = Var(Zim) = Var(Zi) Var(m) = pi(1-pi) Var(mi) = pi(1-pi) mi

    2, que equivale varincia gentica devida ao loco i. Para vrios locos

    ])1([ 22 =n

    iiiig mpp .

    Expressa diretamente em funo da varincia dos efeitos dos marcadores ( 2m ) tem-se que VU

    n

    imiig Cnpp += ])1([ 22 .

    Ignorando nCUV , tem-se que

    ])1([/22 =n

    iiigm pp .

    A quantidade CUV dada por

    )/)()/(/)( =n

    i

    n

    iii

    n

    iiiVU nVnUnVUC ,

    em que )1( iii ppU = e 2ii mV = . Assim, a varincia entre

    marcadores ( 2m ) obtida por REML, as frequncias allicas e os efeitos dos marcadores preditos por BLUP podem ser usados na obteno da varincia gentica aditiva total. Assim, a varincia gentica entre marcas, estimada por REML, deve ser multiplicada pelo nmero de marcas e por p(1-p) e tambm acrescida de nCUV, para cmputo da varincia gentica aditiva total. Isso

  • 32 Computao da Seleo Genmica Ampla (GWS)

    pode ser feito por meio do software Selegen Genmica RR-BLUP, conforme apresentado no tpico Exemplo Aplicado ao Melhoramento do Eucalipto.

    Matriz de parentesco genmico

    Sem padronizao prvia dos elementos de Z, tem-se

    ])1([/)'( ** =n

    iii ppZZA

    em que pi a frequncia associada presena de marca no loco i e PZZ =* onde P uma matriz com elementos pi na coluna i. Com padronizao prvia dos elementos de Z e centrando a mdia em zero tem-se 'ZZA = .

    Marcadores codominantes (SNP) Modelo gamtico ou allicoNesse caso, a matriz de incidncia Z contm os valores 0 ou 1 para ausncia ou presena de um dos alelos do marcador em uma clula haplide.

    A mdia e varincia da varivel Z associada matriz de incidncia so dadas por:

    Mdia da varivel Z = 1 x p + 0 x (1-p) = p, em que p a frequncia do cdigo 1, que contempla M.

    Varincia da varivel Z = Var (Z) = Var (Zi) = (1 p)2 x p + (0

    p)2 x (1-p) = p(1-p)

    Assim, a varivel Z tem distribuio Bernoulli com mdia p e varincia p(1-p).

    Relao entre varincia gentica e varincia dos marcadores

    Do exposto anteriormente e computando o efeito do alelo duas vezes para se ter o g de um indivduo diplide, segue que Var(gi)

  • 33Computao da Seleo Genmica Ampla (GWS)

    = 2Var(Zi2m) = 2 Var(Zi) Var(2m) = 2[pi(1-pi)] Var(2mi) = [2pi(1-pi)] 4 mi

    2 equivale varincia gentica devida ao loco i. Para vrios locos ])1(2[4 22 =

    n

    iiiig mpp .

    Expressa diretamente em funo da varincia dos efeitos dos marcadores ( 2m ), tem-se que ])1(2[4 22 =

    n

    imiig pp

    Portanto, )4(/}])1(2[4{/ 222 Hnpp gn

    iiigm == ,

    em que ])1(2)[/1( =n

    iii ppnH a heterozigose mdia dos

    marcadores. Com freqncia allica p = 0.5 em todos os locos marcadores, tem-se que )2(/22 ngm = . Sob modelo gamtico, a quantidade 2n advm do fato que cada marcador afeta o fentipo duas vezes, via alelo de origem paterna e materna.

    Matriz de parentesco genmico

    Sem padronizao prvia dos elementos de Z, tem-se

    ])1([/)'( ** =n

    iii ppZZA

    em que pi a frequncia de um dos alelos do loco i e PZZ =*

    onde P uma matriz com elementos pi na coluna i. Com padronizao prvia dos elementos de Z e centrando a mdia em zero tem-se 'ZZA = .

    Herdabilidade

    A varincia gentica e a herdabilidade (h2) podem ser computadas via dados fenotpicos ou via dados de marcadores e fenotpicos conforme descrito anteriormente no cmputo de

    2g . A h2 a ser usada no RR-BLUP deve ser a herdabilidade

    ajustada ou dos dados corrigidos ( 222 / jaygjah = ), em que 2

    jay a varincia fenotpica ajustada. Se y corrigido para a mdia dos genitores o numerador de 2 jah deve conter apenas a varincia gentica devida segregao mendeliana, ou seja,

    22*2 /)2/1( jaygjah = ou 22*2 /)4/3( jaygjah = quando se conhece

  • 34 Computao da Seleo Genmica Ampla (GWS)

    os dois genitores (famlias de irmos germanos) ou apenas um dos genitores (famlias de meios irmos), respectivamente. Essas herdabilidades podem ser expressas tambm em funo da herdabilidade individual h2, por meio das expresses

    ))1(2/1(/)2/1( 222*2 hhhh ja += para prognies de irmos germanos e ))1(4/3(/)4/3( 222*2 hhhh ja += para prognies de meios-irmos. Essas frmulas mostram que o denominador de

    *2jah tambm contempla apenas a varincia gentica devida

    segregao mendeliana e no a varincia gentica total. Outra forma de expressar *2 jah usar diretamente a confiabilidade *2ir, apresentada no quarto tpico. Para cmputo do RR-BLUP e da acurcia da GWS, *2 jah pode ser tomada como a mdia dos *2ir dos indivduos em anlise.

    Nmero de marcadores com efeitos significativos

    Na predio RR-BLUP/GWS, necessita-se da quantidade )/(// 2222 ngeige == , em que n o nmero de locos

    controlando o carter (assumindo que cada loco est perfeitamente marcado), o qual desconhecido a priori.

    A varincia gentica contribuda por cada loco dada por 22 )1(2 iiiig app = em que pi a frequncia de um dos alelos

    do loco i e ai o efeito de substituio allica (FALCONER, 1989). A varincia gentica total do carter dada pelo somatrio das varincias nos locos individuais, ou seja,

    ])1(2[ 22 =n

    iiiig app em que o somatrio estende para todos

    os n locos. Com varincias de magnitudes iguais em todos os locos, tem-se 22 igg n = . Conforme tpico anterior, na GWS,

    2ig dada aproximadamente por ])1(2[/22 =

    n

    iiigig pp

    em que o somatrio estende para todos os n locos marcadores codominantes e pi refere-se frequncia de um dos alelos de cada loco marcador, considerando todos os locos marcadores

  • 35Computao da Seleo Genmica Ampla (GWS)

    ajustados no modelo. A quantidade )1(2)( iii ppZV = a varincia da varivel de incidncia Z no loco marcador i.

    Assim, na expresso )/(// 2222 ngeige == , n pode ser tomado como ])1(2[

    n

    iii pp . Alternativamente, pode ser

    expresso como )/(/)1()/(// 222222 nhhngeige ===

    e, portanto }])1(2[/({/)1()/(/)1( 2222 ==n

    iii pphhnhh .

    Expresso de outra forma, 2222 /)1(])1(2[/)1( hhpphhn

    n

    iii ==

    Assim, de posse de h2 e das frequncias allicas nos locos marcadores, obtm-se para uso nas equaes de modelo misto. importante notar que h2 refere-se herdabilidade ajustada ou, em alguns casos, confiabilidade ( 2 ggr ) da predio.

    Recomenda-se ento analisar inicialmente todo o conjunto de marcadores codominantes em todos os indivduos fenotipados (populao de estimao completa), usando n como o nmero total de marcadores ponderados por )1(2)( iii ppZV =ou simplesmente usar n como o nmero total de marcadores. Esse procedimento visa identificar os marcadores com maiores efeitos em mdulo, objetivando rodar anlises com subgrupos menores de marcadores e determinar quantos e quais marcadores maximizam a acurcia seletiva. O nmero timo de marcadores um compromisso entre maior informatividade (maior acurcia, pela maior captura de genes) e menor preciso (menor acurcia, pelo menor tamanho amostral por efeito estimado) com o aumento do nmero de marcadores. Posteriormente, a validao deve ser realizada usando apenas a frao de marcadores que maximiza a acurcia, usando n como o somatrio ])1(2[

    n

    iii pp nesse subconjunto de marcadores.

    Esse procedimento recomendvel, pois tende a produzir

  • 36 Computao da Seleo Genmica Ampla (GWS)

    acurcia mais alta, similar obtida pelo mtodo Bayes B. Dessa forma, ambos os mtodos assumem que muitos dos marcadores apresentam efeitos zero. Isto o faz tambm o mtodo do aprendizado de mquina (AM).

    Outra abordagem para inferir sobre n usar o seu valor esperado, dado o tamanho efetivo (Ne) da populao e o tamanho L do genoma da espcie. Com base no tamanho efetivo populacional (Ne), pode-se calcular o nmero efetivo de locos ou segmentos cromossmicos (Me) devidos ligao (segundo esse conceito, para dois gametas quaisquer, o genoma quebrado em Me segmentos de tamanho igual). Nesse caso, n dado por n = Me V(q) = Me k, sendo V(q) a heterozigose mdia de todos os segmentos cromossmicos independentes, ou seja, V(q) = 2p(1-p), em que p a frequncia allica mdia. V(q) anlogo a V(Zi), sendo que q refere-se aos locos gnicos e Z refere-se aos locos marcadores.

    Segundo Goddard (2008), e conforme apresentado por Resende (2008), a quantidade Me dada por Me = (2NeL)/[Ln(4NeL)], em que L o tamanho total do genoma em Morgans. Entretanto, Hayes et al. (2009) relatam que o valor mais apropriado para Me situa-se entre 4NeL e (2NeL)/[Ln(4NeL)], sendo uma boa aproximao usar Me = 2NeL, ou seja, assumir o nmero efetivo de locos como 2NeL. Esse nmero efetivo de locos deve ser ponderado por uma funo da frequncia allica do gene (via frequncia do marcador), que est implcita em V(q). O valor de n dado ento por n = Me V(q) = Me k, em que V(q) = k dado por k = 1/[Ln(2Ne)]. Dessa forma, n = 2NeL 1/[Ln(2Ne)]. A quantidade Me V(q) refere-se ao nmero esperado de marcas com efeitos significativos. Isso confirmado pelos resultados prticos com eucalipto, associado ao Ne = 100 e L = 13,2 na Tabela 2, em que consta n = 502, o qual coerente com o nmero de marcadores (500 a 750) que maximiza a acurcia com a GWS.

  • 37Computao da Seleo Genmica Ampla (GWS)

    Para a predio BLUP, as alternativas que podem ser adotadas visando inferir sobre n so:

    (i) Ajustar os efeitos de cada SNP individualmente, avaliando suas significncias e, posteriormente, ajustar simultaneamente todos os SNPs (locos) com efeitos significativos, usando n como o nmero de SNPs significativos. Idealmente, esse n deve ser ponderado por uma funo da frequncia allica do marcador.

    (ii) Computar n via n = Me V(q) = Me k.

    (iii) Usar todos os marcadores, sem teste de significncia e, computando ])1(2[ =

    n

    iii ppn .

    Geralmente o nmero de SNPs significativos maior do que o nmero de locos pois cada SNP rastreia um grande segmento cromossmico e ento o efeito de cada segmento cromossmico dividido em muitos SNPs. Em gado de leite, o nmero de SNPs com efeitos significativos variou de 3 mil a 4 mil entre caracteres, dentre cerca de 40 mil marcadores usados (HAYES et al., 2009).

    A melhor opo adotar a estratgia (iii) seguida de escolha de subconjuntos menores de marcadores, com base no mdulo dos maiores efeitos de todos os marcadores estimados inicialmente. Esse ponto distingue a GWS da GWAS (Genome Wide Association Studies), a qual procura associao entre locos e carter fenotpico em nvel populacional, por meio de testes de hipteses, visando detectar efeitos com significncia estatstica. A GWAS sofre com a alta taxa de falsos negativos devido ao uso de pontos de corte muito rigorosos, visando evitar a ocorrncia de falsos positivos. A GWS equivale GWAS tradicional aplicada sobre todos os locos simultaneamente e baseando-se em estimao e predio em vez de teste de hiptese. Dessa forma, consegue explicar parte muito maior da variabilidade gentica e evitar a chamada herdabilidade faltante ou perdida (missing

  • 38 Computao da Seleo Genmica Ampla (GWS)

    heritability, conforme Maher (2008)), tpica dos estudos de anlise de ligao e de associao.

    O nmero mximo de SNPs com efeitos significativos limitado pelo Ne. Com Ne mais baixo, menor n. O nmero real de segmentos cromossmicos total 4NeL, ou seja, 120 mil em bovinos, que bem maior que o nmero efetivo de segmentos. Em eucalipto (genoma com 13,2 Morgans), tem-se a Tabela 2.

    O valor de n computado via n = Me V(q) = Me k, pode ser usado em estudos de simulao da acurcia seletiva, visando inferir sobre o nmero de locos ou segmentos a compartilhar a varincia gentica total. Esse nmero, em uma populao de cruzamentos ao acaso, depende apenas do Ne e do tamanho total do genoma da espcie. Na Tabela 2 so apresentados valores de n para bovinos (genoma com L = 30 Morgans) e eucalipto (genoma com L = 13,2 Morgans), para diferentes valores de Ne.

  • 39Computao da Seleo Genmica Ampla (GWS)

    Tabela 2. Nmero efetivo de segmentos cromossmicos (Me) e de locos (n) em funo do tamanho efetivo (Ne) e do comprimento do genoma (L) em bovinos e eucalipto.

    Ne Ltot Me = 2NeL k=1/Ln(2Ne) n = Me k

    Bovinos

    15 30 900 0,29 261

    30 30 1.800 0,24 432

    50 30 3.000 0,22 660

    100 30 6.000 0,19 1.140

    200 30 12.000 0,17 2.040

    500 30 30.000 0,14 4.200

    1.000 30 60.000 0,13 7.800

    Eucalipto

    15 13,2 396 0,29 115

    30 13,2 792 0,24 190

    50 13,2 1.320 0,22 290

    100 13,2 2.640 0,19 502

    200 13,2 5.280 0,17 898

    500 13,2 13.200 0,14 1.848

    1.000 13.2 26.400 0.13 3.432

    Cmputo da acurcia esperada

    Resende (2008) e Resende et al. (2008) apresentaram uma abordagem para cmputo da acurcia esperada com a GWS, a qual foi empregada por Grattapaglia e Resende (2010). A acurcia esperada dada por

    ])1(1[/)()( 2222/122 mqmmqmmmqq hNrhNrrr +==

    com )1((/)/(

    222222jaqmjaqmjam hrhnrhh += .

    A magnitude do desequilbrio de ligao quantificada por (SVED, 1971):

    1LN41

    e +== )( 22 rEr qm

  • 40 Computao da Seleo Genmica Ampla (GWS)

    Valores de 2qmr (proporo da variao do gene explicada pelo marcador) para diferentes valores de Ne e espaamento entre marcadores so apresentados na Tabela 3. Verifica-se que para uma populao com Ne igual a 100, so necessrios dez marcadores por cM para se conseguir um 2qmr

    de 0,71. Com esse

    2qmr e um carter controlado por 100 locos e com herdabilidade

    individual de 0,30, avaliando-se N = 1.000 indivduos na populao de estimao, a acurcia esperada de 0,70 (RESENDE, 2008), valor esse muito interessante do ponto de vista prtico.

    Daetwyler et al. (2008) assumiram 12 =e e 12 =qmr , obtendo

    ])(1[/)(])/(1[/)/( 2222 jajajajamm hhnhNnhNr +=+=

    e mostrando a importncia da quantidade nN /= , a qual equivale ao nmero de indivduos N usados para estimar o efeito de cada loco na populao de estimao. Resende (2008) obteve uma expresso mais geral, no assumindo 12 =e e 1

    2 =qmr , ou seja, mantendo esses dois elementos na frmula.

  • 41Computao da Seleo Genmica Ampla (GWS)

    Tabela 3. Valores de 2qmr para diferentes valores de tamanho efetivo (Ne) e espaamento entre marcadores (Lseg em Morgans), segundo a equao de Sved (1971).

    Ne L seg 2qmr L seg

    2qmr

    15 0,01 0,63 0,001 0,94

    30 0,01 0,45 0,001 0,89

    50 0,01 0,33 0,001 0,83

    100 0,01 0,20 0,001 0,71

    200 0,01 0,11 0,001 0,56

    500 0,01 0,05 0,001 0,33

    1.000 0,01 0,02 0,001 0,20

    15 0,005 0,77 0,0005 0,97

    30 0,005 0,63 0,0005 0,94

    50 0,005 0,50 0,0005 0,91

    100 0,005 0,33 0,0005 0,83

    200 0,005 0,20 0,0005 0,71

    500 0,005 0,09 0,0005 0,50

    1.000 0,005 0,05 0,0005 0,33

    15 0,002 0,89 - -

    30 0,002 0,81 - -

    50 0,002 0,71 - -

    100 0,002 0,56 - -

    200 0,002 0,38 - -

    500 0,002 0,20 - -

    1.000 0,002 0,11 - -

    Em resumo, a acurcia da GWS depende de cinco fatores: (i) da herdabilidade do carter; (ii) do nmero de locos controlando o carter e da distribuio de seus efeitos; (iii) do nmero de indivduos na populao de descoberta; (iv) do tamanho efetivo populacional; (v) do espaamento entre marcadores, o qual depende do seu nmero e do tamanho do genoma.

  • 42 Computao da Seleo Genmica Ampla (GWS)

    Esses dois ltimos fatores determinam 2qmr . Os dois primeiros fatores no esto sobre o controle do melhorista. Os trs ltimos podem ser modificados pelo melhorista visando aumentar a acurcia da GWS. Valores de acurcia esperada para vrias situaes foram tabelados por Resende (2008). Na Tabela 4 so apresentados resultados da acurcia seletiva da GWS para um carter controlado por 100 locos e com herdabilidade individual no sentido restrito igual a 0,30. Verifica-se que, para uma populao de eucalipto com tamanho efetivo 100 ( 2qmr = 0,7, conforme a Tabela 3), a acurcia seletiva esperada com a GWS de 0,79, para um tamanho amostral de N = 4.000 indivduos. Esse valor supera a acurcia mxima (0,70) para a seleo de indivduos pelo BLUP tradicional na idade adulta. Isto atesta o grande potencial da GWS.

    Tabela 4. Aumento da acurcia da GWS em funo do aumento do tamanho da populao de estimao. Carter controlado por 100 locos e com herdabilidade individual no sentido restrito igual a 0,30.

    Nmero de

    indivduos2qmr = 0,1

    2qmr

    = 0,32qmr = 0,5

    2qmr = 0,7

    2qmr = 0,9

    100 0,06 0,18 0,27 0,36 0,44

    200 0,09 0,24 0,36 0,47 0,57

    500 0,13 0,33 0,48 0,61 0,72

    1.000 0,17 0,40 0,57 0,70 0,81

    2.000 0,21 0,46 0,62 0,76 0,87

    4.000 0,25 0,50 0,66 0,79 0,91

    8.000 0,28 0,52 0,68 0,81 0,93

    *Acurcia mxima para a seleo de indivduos pelo BLUP tradicional na idade adulta = 0,70.

    Ganhos adicionais podem ser conseguidos por unidade de tempo, conforme a Tabela 5. Verifica-se que ganho da ordem de 126% pode ser conseguido com a reduo, de 4 para 2 anos do tempo necessrio para completar um ciclo de seleo.

  • 43Computao da Seleo Genmica Ampla (GWS)

    Tabela 5. Eficincia da GWS por unidade de tempo.

    Acurcia fenotpica

    (AF)

    Acurcia genmica

    (AG)

    Tempo fenotpica

    (TF)

    Tempo genmica

    (TG)

    Eficincia (AG TF)/(AF TG)

    Superioridade %

    0,70 0,79 4 4 1,13 13

    0,70 0,79 4 3 1,50 50

    0,70 0,79 4 2 2,26 126

    0,70 0,79 4 1 4,51 351

    0,70 0,79 4 0,5 9,03 803

    Goddard et al. (2009) e Hayes et al. (2009) apresentaram outra abordagem para cmputo da acurcia esperada na estimao do efeito de um marcador com a GWS. Nessa abordagem, a acurcia dada por:

    ])/()([/)((])([/)(( 22 meiiiimm ZVNZVNZVNZVNr ii +=+=

    em que:22 / me =

    Assumindo que a varincia residual apresenta magnitude prxima da varincia fenotpica, tem-se 2/)( hkeM= . Assim, de posse do Ne, L, h2 e N, tem-se a acurcia esperada na estimao do efeito de cada marcador.

    A confiabilidade da seleo baseada na soma dos efeitos de todos os marcadores equivale mdia ponderada das confiabilidades dos efeitos preditos de cada marcador. Os fatores de ponderao so os V(Zi), ou seja, a heterozigose (varincia) de cada marcador.

    Assim V(Zi) participa duas vezes da expresso da acurcia, em mmr e na ponderao. Quanto maior a heterozigose, maior a confiabilidade e maior o peso e, portanto, maior

    )(/])([/ 222 keMqVeM ggm ==

  • 44 Computao da Seleo Genmica Ampla (GWS)

    a acurcia. A confiabilidade global da predio dada por ]))21(/)21((log*)2(/1[ 2/12/12/12

    +++= Nr

    mm , em que N/21 +=

    Isso assume 2qmr = 1. A quantidade 2qmr depende do r2 (medida

    tradicional de LD) de cada marcador ponderados por uma funo das frequncias allicas e varincias devidas aos locos gnicos. De posse de 2qmr , obtm-se a acurcia seletiva dada por

    2/122 )( qmmmqq rrr = .

    O 2qmr uma mdia ponderada do r2 de cada par marcador-QTL. O r2 o quadrado da correlao entre alelos ou gentipos presentes no loco marcador e no loco do QTL (Tabela 6). As duas formas de clculo do r2 produzem resultados iguais se os genitores femininos e masculinos so cruzados aleatoriamente. O mtodo baseado na correlao entre gentipos mais fcil computacionalmente, pois no requer haplotipagem.

    Tabela 6. Clculo do desequilbrio de ligao entre marcador e QTL.

    Indivduo GenitorGentipos

    loco marcador

    Gentiposloco QTL

    Nm. alelosloco

    marcador

    Nm. alelos

    loco QTL

    1 FemininoMasculino00

    00

    0 0

    2 FemininoMasculino11

    01 2 1

    3 FemininoMasculino10

    10 1 1

    4 FemininoMasculino01

    00 1 0

    5 FemininoMasculino11

    10 2 1

    Correlao r r2 r = 0,53 r2= 0,29 r = 0,76 r2= 0,58

    A relao entre efeitos genticos do marcador e do QTL pode ser melhor entendida segundo os modelos abaixo.

  • 45Computao da Seleo Genmica Ampla (GWS)

    Modelo para fentipo via efeito gentico do QTL (gQTL)

    eguy LTQ ++=

    Modelo para fentipo via efeito gentico do marcador (gm)

    egZueguy mLTQ ++=++=

    A quantidade gm uma regresso dada por

    2/12/1 }])1(2[/)({])(/)([

    )(/),()(/),(

    ppgraVrZraVgraVr

    ZraVZgvoCZraVZyvoCg

    LTQLTQ

    LTQm

    ==

    ==

    .

    A quantidade da variao no QTL explicada pelo marcador dada por:

    )()(])(/)([)()( 222 LTQLTQmm graVrZraVZraVgraVrZraVggZraV ===

    Assim, surge o conceito de 2r como a proporo da variao do QTL explicada pelo marcador.

    Populaes de estimao, validao e seleo

    Na prtica da seleo genmica ampla, trs populaes podem ser definidas: populao de estimao, validao e seleo. Essas podem: (i) ser fisicamente distintas (trs populaes diferentes); (ii) exercer duas funes ao mesmo tempo (uma s populao usada para estimao e validao); (iii) exercer trs funes ao mesmo tempo (uma s populao usada para estimao, validao e seleo). Em geral, as estratgias (i) e (ii) so mais usadas. A Figura 1 ilustra a estratgia (ii).

    Populao de Estimao. Tambm denominada populao de descoberta, de treinamento ou de referncia. Esse conjunto de dados contempla um grande nmero de marcadores avaliados em um nmero moderado de indivduos (1.000 a 2.000,

  • 46 Computao da Seleo Genmica Ampla (GWS)

    dependendo da acurcia desejada, conforme relatado no sexto tpico), os quais devem ter seus fentipos avaliados para os vrios caracteres de interesse. Equaes de predio (regresso mltipla aleatria) de valores genticos genmicos so obtidas para cada carter de interesse. Essas equaes associam a cada marcador ou intervalo o seu efeito (predito por RR-BLUP) no carter de interesse. Nessa populao so descobertos, via marcadores, os marcadores que explicam os locos que controlam os caracteres, bem como so estimados os seus efeitos.

    Populao de Validao. Quando fisicamente disjunta da populao de estimao, esse conjunto de dados menor do que aquele da populao de descoberta e contempla indivduos avaliados para os marcadores SNPs e para os vrios caracteres de interesse. As equaes de predio de valores genticos genmicos so testadas para verificar suas acurcias nessa amostra independente. Para computar essa acurcia, os valores genticos genmicos so preditos (usando os efeitos estimados na populao de estimao) e submetidos anlise de correlao com os valores fenotpicos observados. Como a amostra de validao no foi envolvida na predio dos efeitos dos marcadores, os erros dos valores genticos genmicos e dos valores fenotpicos so independentes e a correlao entre esses valores predominantemente de natureza gentica e equivale capacidade preditiva ( yyr ) da GWS em estimar os fentipos, sendo dada pela prpria acurcia seletiva ( ggr ) multiplicada pela raiz quadrada da herdabilidade individual (h), ou seja, hrr ggyy =conforme demonstrado em tpico posterior. Assim, para estimao da prpria acurcia, deve-se obter hrr yygg / = . Isso vlido quando so usados os valores fenotpicos brutos para cmputo da correlao. Quando so usados valores genotpicos preditos com base nos fentipos em vez dos valores fenotpicos brutos, a herdabilidade deve ser substituda pela confiabilidade. De maneira geral, adota-se a estratgia (ii), segundo um esquema Jacknife de validao cruzada, conforme descrito no tpico seguinte.

  • 47Computao da Seleo Genmica Ampla (GWS)

    Populao de Seleo. Esse conjunto de dados contempla apenas os marcadores avaliados nos candidatos seleo. Essa populao no necessita ter os seus fentipos avaliados. As equaes de predio derivadas na populao de descoberta so ento usadas na predio dos valores genticos genmicos (VGG) ou fentipos futuros dos candidatos seleo. Mas a acurcia seletiva associada refere-se quela calculada na populao de validao.

    A seguinte estratgia e sequncia de anlise envolvendo as populaes de estimao e validao podem ser indicadas:

    - compute a predio dos valores genticos genmicos (VGG) usando todos os marcadores e calcule a correlao rVGG,y entre VGG e y.

    - Ordene os marcadores por maiores mdulos dos efeitos estimados dos marcadores.

    - Crie arquivos com subconjuntos dos marcadores com maiores mdulos dos efeitos estimados dos marcadores (100, 250, 500, 1.000, 1.500, 2.000, ...).

    - Analise todos esses arquivos e compute as correlaes rVGG,y e escolha o arquivo timo que maximiza a rVGG,y .

    - Faa a validao nesse arquivo timo com k = 2 no processo Jacknife descrito a seguir.

    - Faa a validao nos outros arquivos menores que o timo e um maior para ver tendncias (usar k = 2).

  • 48 Computao da Seleo Genmica Ampla (GWS)

    Figura 1. Esquema de aplicao da seleo genmica ampla em um programa de

    melhoramento gentico.

    Populao de validao e Jacknife

    Na estimao de um parmetro q a partir de uma amostra ou conjunto de dados com n observaes, o procedimento Jackknife para a estimao da varincia do estimador consiste na omisso de cada uma das n observaes, uma em cada reamostragem. A metodologia generalizada do Jackknife baseia-se na diviso do conjunto de N dados amostrais em g grupos de tamanho igual a k, de forma que N = gk. Em geral, k tomado como 1, mas, pode ser to grande quanto N/2. O estimador i corresponde quele baseado em amostras de tamanho (g -1)k, onde o i-simo grupo de tamanho k foi removido. Com k = 1, N = g e (g 1)k = g 1= N-1, de forma que i refere-se amostra em que foi omitida a observao i (RESENDE, 2002).

    As validaes realizadas no tpico sobre o software Selegen Genmica, com k = 1 e k =2, conduziram aos mesmos valores de acurcia na populao de validao. Assim, no h necessidade de usar k = 1, sendo que valores maiores so tambm suficientes para a validao cruzada.

    Populao de Estimao (PE)

    1.000 a 2.000 indivduos genotipados e fenotipados

    Fenotipagem e Genotipagem

    Populao >500 indivduos

    y = Xb + Zm + e

    Estimao dos efeitos dos marcadores

    Gerao das equaes de predio

    Populao de Validao (PV) Cmputo da acurcia nos mesmos

    indivduos da PE via validao cruzada

    Populao de Seleo (PS) Precoce

    20.000 indivduos apenas genotipados

  • 49Computao da Seleo Genmica Ampla (GWS)

    Correlao e regresso entre valores genticos preditos e fentipos na populao de validao

    Os coeficientes de correlao e regresso envolvendo valores observados e preditos so medidas prticas da capacidade dos mtodos predizerem de forma acurada e no viesada, respectivamente. A correlao fornece a capacidade preditiva, a qual equivale ao produto da acurcia pela raiz quadrada da herdabilidade. O coeficiente de regresso equivale algebricamente a 1.

    Coeficientes de regresso abaixo de 1 indicam que os valores genticos so superestimados e apresentam variabilidade alm da esperada e, acima de 1, indicam que os valores genticos estimados apresentam variabilidade aqum da esperada. No vcio importante quando a seleo envolve indivduos de muitas geraes usando efeitos dos marcadores estimados em uma s gerao. Coeficientes de regresso prximos de 1 indicam que as avaliaes so no viesadas e so efetivas em predizer as reais magnitudes das diferenas entre os indivduos em avaliao. A seguir so apresentadas algumas definies paramtricas importantes envolvendo os valores fenotpicos corrigidos (yc) e os valores genticos genmicos preditos na populao de validao ( Vg ).

    Covarincia

    ),(])(,[],[),( ggvoCeggvoCygvoCygvoC VVcVcV =+==

    Varincias

    2)( VgVgraV =

    22222 /)( hyraV gegyc c =+==

  • 50 Computao da Seleo Genmica Ampla (GWS)

    Correlao

    hrhggvoChggvoC

    ggvoCygvoCygroCr

    ggggVggV

    ygVygcVcVfg

    VV

    cVcV

    2/122

    ])/([/),(])/([/),(

    )(/),()(/),(),(

    ===

    ===

    Regresso de yc em Vg

    1/)(/),()(/),()/( 22

    2

    2 ===== VVVV gggVgcVVcgy ggvoCygvoCgygeRb

    Acurcia

    hrr fggg / =

    Confiabilidade ou determinao

    22 )/( hrr fggg =

    O erro padro da estimativa da acurcia pode ser computado por 2/12

    ])2(/)1([)( = Nrrs gggg

    No tpico do Selegen Genmica, para o arquivo com 500 marcas, a correlao entre os valores genticos genmicos nas populaes de estimao e de validao equivaleu a 0,96 e o coeficiente de regresso dos primeiros nos ltimos equivaleu a 1,03. Esses resultados confirmam que existe parentesco genealgico entre os indivduos da populao, ou seja, que as duas populaes no so totalmente independentes.

    Anlise de associao na GWAS

    A GWAS (Genome Wide Association Studies) procura associao entre locos e carter fenotpico em nvel populacional, por meio de testes de hipteses, visando detectar efeitos com significncia estatstica.

    O seguinte modelo de regresso em marcas simples pode ser empregado visando associao entre marcador e QTL em uma populao panmtica, conforme Resende (2008).

  • 51Computao da Seleo Genmica Ampla (GWS)

    y = 1u + Xm + e,

    em que y o vetor de observaes fenotpicas, 1 um vetor com valores 1, u o escalar referente mdia geral, m o efeito fixo do marcador, e refere-se ao vetor de resduos aleatrios e X a matriz de incidncia para m. A dimenso de m igual ao nmero de alelos do marcador.

    Esse modelo assume que o marcador afetar o carter apenas se ele estiver em LD com o suposto QTL.

    A estrutura de mdias e varincias definida como:

    RVyraVIRNe

    mXuyE

    e ===

    +=

    )(),0(~

    1)(2

    em que 2e a varincia residual.

    Como exemplo, considere a avaliao de 12 indivduos para um carter e para um marcador do tipo SNP. Os dados referentes aos gentipos e fentipos dos indivduos so apresentados na Tabela 7.

    Tabela 7. Avaliao de 12 indivduos para um carter e para um marcador do tipo SNP.

    Indivduo Fentipo Primeiro alelo do SNP1Segundo alelo do

    SNP11 9,87 A a

    2 14,48 A A

    3 8,91 A a

    4 14,64 A A

    5 9,55 A a

    6 7,96 a a

    7 16,07 A A

    8 14,01 A a

    9 7,96 a a

    10 21,17 A A

    11 10,19 A a

    12 9,23 A A

  • 52 Computao da Seleo Genmica Ampla (GWS)

    A matriz de incidncia X associa os nmeros de cada alelo do SNP aos fentipos. suficiente ajustar o efeito de apenas um dos alelos. Assim, a matriz X ter apenas uma coluna para o efeito de um dos alelos do SNP, por exemplo, o A. Essa coluna contm o nmero de cpias do alelo A que os indivduos possuem. Portanto, contm os valores 0, 1 ou 2 para um indivduo diplide. O nmero de linhas dessa matriz igual ao nmero de indivduos.

    A matriz 1 inclui uma coluna para a mdia geral. As matrizes 1 e X (nmero de alelos A) so dadas por

    =

    111111111111

    1 )121( x e

    =

    212012012121

    )121( xX

    As equaes de quadrados mnimos para a estimao dos efeitos da mdia geral e do SNP equivalem a:

    =

    yXy

    mu

    XXXX

    ''1

    '1''11'1

    em que y o vetor de fentipos. Resolvendo-se esse sistema, obtm-se:

    =

    7856,32713,7

    mu

  • 53Computao da Seleo Genmica Ampla (GWS)

    A hiptese da nulidade, ou seja, de que o marcador no apresenta qualquer efeito sobre o carter, pode ser avaliada pelo teste F. A hiptese nula rejeitada se F > F(a,v1,v2), em que F a estatstica de Snedecor calculada dos dados, a o nvel de significncia e v1 e v2 so os graus de liberdade associado distribuio F tabelada. A hiptese alternativa de que o marcador afeta o carter, ou seja, devido ao fato de que marcador e QTL encontram-se em desequilbrio de ligao.

    O valor da estatstica F calculado, conforme Resende (2008), via.

    )2(/)'1'(

    )'1()/1('1

    2

    2 +

    ==nyuyXmyyynyuyXmossergeRMQF

    e,

    No presente exemplo, o valor calculado de F foi de 9,74. Tal valor pode ser comparado com o valor tabelado de F ao nvel de significncia de 5% e graus de liberdade 1 e 10, o qual equivale a 4,96. Assim, o efeito do SNP significativo. Isso era esperado, pois, associados aos maiores valores fenotpicos esto os alelos A do SNP, conforme se v claramente na tabela dos dados.

    O nvel de significncia a ser adotado em estudos de associao genmica ampla demanda srias consideraes. Isto porque milhares de marcadores estaro sendo testados e, portanto, existe o problema de mltiplos testes de hiptese. Nesse caso, o nvel nominal de significncia adotado para cada teste no corresponde quele realizado em todo o experimento. Com um nvel de significncia de 5%, espera-se 5% dos resultados como falsos positivos. Com 20 mil marcadores, o nmero de falsos positivos esperados de 1.000. A correo de Bonferroni poderia aliviar isso. Entretanto, ela no leva em considerao que os testes no mesmo cromossomo no so independentes, pois os marcadores podem estar em desequilbrio de ligao entre eles e tambm com o QTL.

  • 54 Computao da Seleo Genmica Ampla (GWS)

    Uma boa alternativa usar o conceito da taxa de descobertas falsas (FDR), definida como a proporo esperada de QTLs detectados que so falsos positivos. A FDR pode ser calculada como FDR = m Pmax/n, em que Pmax o maior Pvalor de QTL que excede o nvel de significncia, n o nmero de QTLs que excedem o nvel de significncia e m o nmero de marcadores testados. Com 10 mil SNPs testados, nvel de significncia (Pvalor) de 0,001 e 80 SNPs declarados como significativos, a FDR = 10.000 x 0,001/80 = 0,125. Essa magnitude (12,5%) de taxa de falsa descoberta pode ser considerada aceitvel (no muito acima de 10%).

    Software Selegen Genmica: Random (Ridge) Regression BLUP: RR-BLUP/GWS

    Considere o pequeno exemplo da Tabela 8, referente avaliao de cinco indivduos para o carter dimetro e genotipagem para sete marcas, em que so apresentados o nmero de um dos alelos de cada loco marcador.

    Tabela 8. Avaliao de cinco indivduos para o carter dimetro e genotipagem para sete marcas.

    Indi

    vdu

    o

    Di

    met

    ro

    Mar

    ca 1

    Mar

    ca 2

    Mar

    ca 3

    Mar

    ca 4

    Mar

    ca 5

    Mar

    ca 6

    Mar

    ca 7

    1 9,87 2 0 0 0 2 0 0

    2 14,48 1 1 0 0 1 1 0

    3 8,91 0 2 0 0 0 0 2

    4 14,64 1 0 1 0 1 0 0

    5 9,55 1 0 0 1 1 1 0

    Os efeitos genticos dos marcadores so obtidos resolvendo-se

    =

    + yZyX

    mb

    nIZZXZ

    ZXXX

    g

    e ''

    )/(''

    ''

    2

    2

  • 55Computao da Seleo Genmica Ampla (GWS)

    Tem-se as seguintes matrizes

    =

    01110010010101200002001100110020002

    Z

    =

    9.5514.648.9114.489.87

    y

    ;

    =

    11111

    X

    .

    Efetuando-se as multiplicaes e assumindo )/( 2

    2

    nge

    = 1, tem-se

    ]5[' =XX ;

    XZ = [5 3 1 1 5 2 2]

    ZX = (XZ) = [5 3 1 1 5 2 2]

    =+

    5000040032101202811170112001001020141100610271118

    ' IZZ

    Xy = [57,45]

  • 56 Computao da Seleo Genmica Ampla (GWS)

    =

    17,820024,030058,41009,550014,640032,300058,4100

    ' yZ

    Assim, tem-se:

    =

    17,820024,030058,41009,550014,640032,300058,410057,4500

    5000040203210122028111750112001100102011411006130271118522511355

    -1

    mb .

    Os resultados so

    =

    1,63765-0,54360,3526-1,3701-1,44670,27610,3526-12,4519

    mb

    em que 12,4519 a mdia geral e os demais valores so as estimativas dos efeitos dos marcadores.

  • 57Computao da Seleo Genmica Ampla (GWS)

    O valor gentico genmico dos indivduos de uma populao de seleo podem ser obtidos por ==

    iiij mZyGGV . No caso, as

    predies so

    =

    1,5317-0,74152,7230-0,11451,4104-

    GGV

    Outro exemplo, baseado em hapltipos, apresentado em detalhes por Resende (2008).

    Um novo exemplo apresentado a seguir, relatando a estimao e a validao em uma amostra com dez indivduos fenotipados para o carter dimetro e genotipados para dez marcas. Esse conjunto de dados foi submetido anlise pelo software Selegen Genmica-RR/BLUP, em que foram obtidas as estimativas dos efeitos dos marcadores, a predio dos valores genticos genmicos e realizada a validao.

    O arquivo de resultados apresentado a seguir e mostra cada passo do esquema Jacknife e, ao final, apresenta as estimativas e predies definitivas. Na validao cruzada via Jacknife, a capacidade preditiva obtida foi de 0,07 e a acurcia seletiva na populao de seleo foi igual a 0,09, refletindo o baixo tamanho amostral (N = 10) para estimar os efeitos de marcadores. A herdabilidade usada foi 0,60.

  • 58 Computao da Seleo Genmica Ampla (GWS)

    SELEGEN-Genomica: Random (Ridge) Regression BLUP:RR-BLUPInicio : 2007 Versao Atual : Setembro 2010Sistema de Selecao Genomica Ampla (GWS)

    Modelos Lineares Mistos via REML/BLUP/GWS

    Empresa Brasileira de Pesquisa AgropecuariaEmbrapa FlorestasMinisterio da Agricultura e do Abastecimento

    Informacoes : Marcos Deon Vilela de Resende Universidade Federal de Viosa Viosa - MG marcos.deon@gmail.com marcos.deon@ufv.br

    Arquivo : C:\Ano2010SelegenGenomica2010\Oficial-10M-10IND.txt Modelo : 1Nmero de Variveis : 1Varivel Analisada : 1N. Linhas Lidas : 10Zeros significativos : NaoData : 29/11/2010Hora : 18:37:58

    Grupo 1

    1. Componentes de Varincia ( REML Individual )h2 = 0.600000Mdia geral = 38.114018

    Ef. Fixo Media 1 38.1140

  • 59Computao da Seleo Genmica Ampla (GWS)

    2. Componentes de Mdia ( BLUP Individual )

    Efeitos dos Marcadores Genticos Ordem Marcador e1 u + e1 1 10 1.4851 39.5991 2 2 1.1880 39.3021 3 3 0.4011 38.5151 4 4 0.0000 38.1140 5 8 -0.2775 37.8365 6 7 -0.3241 37.7900 7 9 -0.7143 37.3997 8 6 -0.8026 37.3115 9 5 -1.1719 36.9422 10 1 -2.7208 35.3932

    Valores Genticos GenmicosPopulao de Validao Ordem Indivduo g u + g f 1 4 -1.8460 36.2680 30.2160

    Populacao de Estimao Ordem Indivduo g u + g f

    1 9 1.6348 39.7488 44.3250 2 2 0.8748 38.9888 42.3460 3 7 -0.7732 37.3408 38.5860 4 8 -1.0949 37.0192 38.1550 5 3 -1.8420 36.2720 35.4010 6 10 -1.8460 36.2680 34.9160

    7 5 -2.9726 35.1414 32.1460 8 6 -4.1141 33.9999 33.9460

    9 1 -4.9310 33.1830 28.1410

  • 60 Computao da Seleo Genmica Ampla (GWS)

    Grupo 2

    1. Componentes de Varincia ( REML Individual )

    h2 = 0.600000 Mdia geral = 37.309216

    Ef. Fixo Mdia 1 37.30922. Componentes de Mdia ( BLUP Individual )

    Efeitos dos Marcadores Genticos Ordem Marcador e1 u + e1 1 10 1.4171 38.7263 2 2 1.1198 38.4290 3 7 0.4969 37.8061 4 3 0.3209 37.6301 5 6 0.0557 37.3649 6 4 0.0000 37.3092 7 8 -0.1995 37.1097 8 9 -0.6039 36.7053 9 5 -1.1341 36.1751 10 1 -2.9844 34.3248

  • 61Computao da Seleo Genmica Ampla (GWS)

    Valores Genticos Genmicos

    Populao de Validao

    Ordem Indivduo g u + g f 1 5 -1.5950 35.7142 32.1460

    Populao de Estimao Ordem Indivduo g u + g f 1 9 2.4299 39.7391 44.3250 2 2 0.8368 38.1460 42.3460 3 7 0.4260 37.7352 38.5860 4 8 -0.3164 36.9929 38.1550 5 3 -1.1952 36.1140 35.4010 6 4 -2.1476 35.1616 30.2160 7 10 -2.1476 35.1616 34.9160 8 6 -3.4112 33.8980 33.9460 9 1 -4.2256 33.0836 28.1410

    .

    .

    .

    Grupo 10

    1. Componentes de Varincia ( REML Individual )

    h2 = 0.600000 Mdia geral = 37.690191

    Ef. Fixo Mdia 1 37.6902

  • 62 Computao da Seleo Genmica Ampla (GWS)

    2. Componentes de Mdia ( BLUP Individual )

    Efeitos dos Marcadores Genticos

    Ordem Marcador e1 u + e1 1 10 1.6963 39.3865 2 2 0.9076 38.5978 3 3 0.1545 37.8447 4 7 0.1039 37.7941 5 4 0.0000 37.6902 6 8 -0.0473 37.6429 7 6 -0.3336 37.3566 8 9 -0.8176 36.8726 9 5 -1.0332 36.6570 10 1 -3.1187 34.5715

    Valores Genticos GenmicosPopulao de Validao

    Ordem Indivduo g u + g f 1 10 -2.8742 34.8160 34.9160

    Populacao de Estimao Ordem Indivduo g u + g f 1 9 1.8902 39.5804 44.3250 2 2 0.2445 37.9347 42.3460 3 7 -0.5900 37.1002 38.5860 4 8 -0.7748 36.9154 38.1550 5 3 -1.7132 35.9770 35.4010 6 4 -2.8742 34.8160 30.2160 7 5 -3.1039 34.5863 32.1460 8 6 -4.1627 33.5275 33.9460 9 1 -4.8656 32.8246 28.1410

  • 63Computao da Seleo Genmica Ampla (GWS)

    Populacao de Validao ( Jacknife ) Ordem Indivduo g u + g f 1 9 -0.2431 36.2147 44.3250 2 2 -0.4889 36.0389 42.3460 3 8 -1.2304 35.8311 38.1550 4 3 -1.3602 36.4229 35.4010 5 5 -1.5950 35.7142 32.1460 6 7 -1.6202 36.0155 38.5860 7 4 -1.8460 36.2680 30.2160 8 1 -2.2946 36.5328 28.1410 9 10 -2.8742 34.8160 34.9160 10 6 -4.3690 33.2465 33.9460

    rgf = 0.0707rgg = 0.0913

    Mdia dos Efeitos dos Marcadores Genticos Ordem Marcador e1 1 10 1.5443 2 2 0.8517 3 3 0.1100 4 7 0.1064 5 4 0.0000 6 8 -0.0721 7 6 -0.3259 8 9 -0.7399 9 5 -0.9145 10 1 -2.8076

  • 64 Computao da Seleo Genmica Ampla (GWS)

    Valores Genticos na Populao de Estimao Ordem Indivduo g u + g 1 9 1.7625 39.2648 2 2 0.2219 37.7241 3 7 -0.5212 36.9811 4 8 -0.6980 36.8043 5 3 -1.5496 35.9527 6 4 -2.5858 34.9165 7 10 -2.5858 34.9165 8 5 -2.8053 34.6969 9 6 -3.8355 33.6668 10 1 -4.3555 33.1467

  • 65Computao da Seleo Genmica Ampla (GWS)

    Exemplo aplicado ao melhoramento do eucalipto

    Esse tpico relata a aplicao da GWS em dados reais de eucaliptos hbridos envolvendo as espcies Eucalyptus urophylla, E. grandis e E. globulus. Foram avaliados 920 indivduos de uma populao com tamanho efetivo 100, para o carter dimetro do tronco. Esses indivduos foram tambm genotipados para 3.564 marcadores do tipo DArT. A seguir so apresentados resultados das anlises empregando o software Selegen Genmica: Random (Ridge) Regression BLUP (RR-BLUP/GWS).

    Inicialmente, foram computados os valores genticos genmicos (VGG) usando todos os marcadores. Em seguida, os marcadores foram ordenados por maiores mdulos dos efeitos estimados dos marcadores e foram criados arquivos com subconjuntos dos marcadores com maiores mdulos dos efeitos estimados (250, 500, 1.000, 1.500, 2.000, 3.564 marcadores). Todos esses arquivos foram analisados para cmputo de componentes de varincia, herdabilidade e valores genticos genmicos nas populaes de estimao e de validao. Os resultados referentes aos componentes de varincia e herdabilidade so apresentados na Tabela 9.

  • 66 Computao da Seleo Genmica Ampla (GWS)

    Tab

    ela

    9. C

    ompo

    nent

    es d

    e va

    rinc

    ia e

    her

    dabi

    lidad

    e es

    timad

    os p

    elo

    Sel

    egen

    Gen

    mic

    a.

    Nm

    ero

    de

    Mar

    cado

    res

    (M)

    Freq

    unc

    ia

    Al

    lica

    (p)

    Var

    inc

    ia

    p(1-p

    )n

    = M

    p(

    1-p

    )

    Var

    inc

    ia

    Mar

    cado

    rREM

    L

    VRes

    idua

    l REM

    LV

    fh2

    nCuv

    Vg

    h2 C

    orr

    250

    0,5

    40,2

    48

    62

    0,3

    229,3

    249,1

    90,4

    04

    0,2

    21

    19,6

    51

    0,3

    99

    500

    0,5

    40,2

    48

    124

    0,2

    104

    25,7

    151,8

    40,5

    04

    0,1

    57

    25,9

    75

    0,5

    01

    750

    0,5

    40,2

    48

    186

    0,1

    585

    24,6

    954,2

    20,5

    45

    0,1

    51

    29,5

    29

    0,5

    45

    1.0

    00

    0,5

    50,2

    48

    248

    0,1

    29

    24,6

    156,5

    30,5

    65

    0,1

    45

    31,9

    28

    0,5

    65

    1.5

    00

    0,5

    40,2

    48

    373

    0,0

    885

    25,8

    958,8

    60,5

    60

    0,1

    46

    32,9

    75

    0,5

    60

    2.0

    00

    0,5

    30,2

    49

    498

    0,0

    634

    28,2

    559,8

    30,5

    28

    0,1

    54

    31,5

    86

    0,5

    28

    3.5

    64

    0,5

    10,2

    50

    890

    0,0

    312

    34,3

    662,1

    30,4

    47

    0,1

    93

    27,7

    72

    0,4

    47

    Feno

    tpic

    a0,6

    00

  • 67Computao da Seleo Genmica Ampla (GWS)

    A partir da varincia entre marcadores (Vm) e varincia residual (Vres) estimados via REML pelo Selegen-REML/BLUP/GWS, a herdabilidade estimada por )(/)(2 sermm VVnVnh += . Verifica-se que a quantidade n CUV apresenta valores desprezveis. Com nmeros crescentes de marcadores, verifica-se que a varincia explicada por cada marcador diminui, mas a varincia gentica total (Vg) explicada aumenta. A herdabilidade multi-locos tambm aumenta at o nmero de 1.000 marcadores, atingindo o valor de 0,565, valor este prximo do valor 0,60, estimado via dados fenotpicos. Assim, 1.000 marcadores recuperam ou explicam 94% da herdabilidade, restando apenas 6% de missing heritability. Maiores nmeros de marcadores no contriburam para recuperar mais da herdabilidade, havendo decrscimos a partir desse nmero. O valor de h2 com base na anlise com 750 marcadores de maiores efeitos, tambm j recupera elevada frao da herdabilidade.

    Na Tabela 10 so apresentados valores da capacidade preditiva da GWS na populao de estimao, associada aos arquivos com diferentes nmeros de marcadores, em ordem daqueles de maior efeito. Verifica-se que a capacidade preditiva praticamente maximizada na anlise com os 750 ou 1.000 marcadores de maiores efeitos, confirmando a inferncia realizada com base na recuperao da herdabilidade. A anlise com 500 marcadores de maiores efeitos tambm j propicia alta capacidade preditiva.

    Tabela 10. Capacidade preditiva da GWS na Populao de Estimao.

    Nm. Marcas Nm. Locos Herdabilidade Correlao

    250 62 0,6 0,71

    500 124 0,6 0,79

    750 186 0,6 0,82

    1000 248 0,6 0,83

    1500 373 0,6 0,84

    2000 498 0,6 0,84

    3564 890 0,6 0,82

  • 68 Computao da Seleo Genmica Ampla (GWS)

    Na Tabela 11 so apresentados valores da capacidade preditiva e acurcia da GWS na populao de validao, associada aos arquivos com diferentes nmeros de marcadores, em ordem daqueles de maior efeito. Verifica-se que a capacidade preditiva e a acurcia praticamente so maximizadas nas anlises com 500 e 750 marcadores de maiores efeitos. As capacidades preditivas da Tabela 9 so menores do que aquelas da Tabela 8, conforme esperado, devido independncia das amostras de estimao e de validao, por ocasio da implementao da validao.

    O aumento do nmero de marcadores no aumenta linearmente a acurcia da GWS pelo mtodo RR-BLUP, concordando com os resultados de Fernando et al. (2007). Assim, entre 500 a 1.000 locos so suficientes para maximizar a acurcia na populao de validao. Esse nmero coerente com a quantidade n = Me V(q), que se refere ao nmero esperado de marcas com efeitos significativos (ver tpico Frequncias Allicas, Varincia dos Marcadores e Herdabilidade). Esse valor, associado ao Ne = 100 e L = 13,2 (tamanho do genoma do eucalipto) na Tabela 2, em que consta n = 502, coerente com o nmero de marcadores (500 a 750) que maximiza a acurcia com a GWS (Tabela 9). O valor da acurcia esperada, associada a 100 locos (500 marcas na Tabela 11) e um 2qmr de 0,33 (segundo a equao de Sved e dado o nmero de marcadores e o Ne = 100) em torno de 0,50 (RESENDE, 2008), valor esse inferior ao valor 0,70 da Tabela 11. Isso pode indicar que o 2qmr da populao hbrida considerada maior do que o esperado segundo a equao de Sved, devido origem hbrida da mesma, envolvendo o cruzamento de trs espcies.

    O aumento ou diminuio da acurcia da GWS via RR-BLUP um compromisso ou balano entre acrscimo da quantidade de informao til via uso de maior nmero de locos marcadores e diminuio do tamanho de amostra efetivo para estimar o efeito de cada loco, ou seja, menor nmero de indivduos por loco a ser estimado (menor N/n).

  • 69Computao da Seleo Genmica Ampla (GWS)

    Tabela 11. Capacidade Preditiva (Correlao) e Acurcia da GWS na Populao de Validao.

    Nm

    uro

    Mar

    cas

    Nm

    ero

    Loco

    s

    Her

    dabi

    lidad

    e

    Cor

    rela

    o

    Acu

    rci

    a

    Reg

    ress

    o*

    Reg

    ress

    o**

    250 62 0,6 0,51 0,66 0,82 0,98

    500 124 0,6 0,54 0,70 0,89 0,99

    750 186 0,6 0,53 0,69 0,92 0,97

    1.000 248 0,6 0,52 0,67 0,93 0,98

    1.500 373 0,6 0,46 0,59 0,91 0,95

    2.000 498 0,6 0,38 0,49 0,84 0,92

    3.564 890 0,6 0,10 0,13 - -* Predio usando herdabilidade igual a 0,60; ** Predio usando as herdabilidades da Tabela 7.

    O nmero reduzido de marcadores explicando grande parte da variao gentica ou da acurcia mxima possvel muito interessante do ponto de vista prtico. Nesse caso, arranjos de DNA com baixa densidade de marcadores previamente selecionados poderiam ser usados nas populaes de seleo. Na Austrlia, a acurada predio de valores genticos genmicos em gado leiteiro pode ser realizada com chips de SNP contendo 1.000 (propiciando 85% da acurcia obtida com 42.500 SNP) a 5.000 (propiciando 95% da acurcia obtida com 42.500 SNP) SNP igualmente espaados (MOSER et al., 2010).

    Uma alternativa ao uso de marcadores previamente selecionados o uso de marcadores igualmente espaados e em maior nmero do que aqueles selecionados. Isso permite atender a vrios caracteres e pode conduzir ao uso generalizado da GWS em vrias espcies e pases.

    Na Tabela 12 so apresentados resultados referentes ao comportamento da capacidade preditiva em funo da

  • 70 Computao da Seleo Genmica Ampla (GWS)

    herdabilidade usada na predio, para os arquivos com 10, 250, 500 e 750 marcadores.

    Tabela 12. Comportamento da capacidade preditiva (rgf da populao de validao) em funo da herdabilidade usada na predio, para os arquivos com 10, 250, 500 e 750 marcadores.

    h210 Marcas 250 Marcas 500 Marcas 750 Marcas

    rgf rgf rgf Rgf

    0,05 0,265 0,466 0,467 0,441

    0,1 0,266 0,486 0,496 0,473

    0,2 0,266 0,501 0,521 0,504

    0,3 0,266 0,503 0,531 0,518

    0,4 0,266 0,504 0,534 0,525

    0,5 0,265 0,499 0,535 0,526

    0,6 0,265 0,493 0,530 0,526

    0,7 0,265 0,485 0,521 0,513

    0,8 0,265 0,476 0,508 0,495

    0,9 0,265 0,462 0,484 0,456

    1 0,265 0,432 0,375 0,181

    Verifica-se que, em cada arquivo, a herdabilidade que maximiza a capacidade preditiva na validao cruzada aquela estimada por REML, especificamente para cada arquivo (Tabela 9). Assim, esses pontos de mximo foram propiciados pelas herdabilidades de 0,10; 0,40; 0,50 e 0,55 para os arquivos com 10, 250, 500 e 750 marcadores, respectivamente, conduzindo a capacidades preditivas de 0,27; 0,50; 0,53 e 0,53, respectivamente (Tabela 12). Assim, entre diferentes arquivos, maiores herdabilidades verdadeiras (assinaladas em negrito na Tabela 12) propiciam maior capacidade preditiva na validao cruzada. O ponto de mximo da capacidade preditiva reflete a coerncia interna e intrnseca dos dados em informar sobre o fentipo. Em geral, o ponto de mximo global da capacidade preditiva situa-se na herdabilidade entre 0,5 e 0,6 e com nmero de marcas entre 500 e 750 (Tabela 12).

  • 71Computao da Seleo Genmica Ampla (GWS)

    Os pontos de mximo da capacidade preditiva podem ento ser usados de forma reversa para informar sobre a herdabilidade capturada pelos marcadores, de forma alternativa ou confirmativa do mtodo REML. Assim, a h2 e o parmetro so obtidos por sintonia fina ou ajuste na prpria validao cruzada via o modelo com maior capacidade preditiva ou maior determinao para predizer o fentipo. Dessa forma, a h2 otimizada para cada arquivo que deve integrar o . Mas a h2

    usada para computar a acurcia a partir da capacidade preditiva, via hrr fggg / = , deve ser a h2 total ajustada, estimada dos prprios dados fenotpicos. Essa tende a ser similar a h2 estimada via marcadores, quando se usa o total de marcas em grande nmero.

    Coeficientes de regresso

    As duas ltimas colunas da Tabela 11 apresentam os coeficientes de regresso envolvendo valores observados e preditos. Na primeira dessas colunas, a predio empregou a herdabilidade de 60% e na segunda dessas colunas, a predio empregou as herdabilidades estimadas por REML, conforme a Tabela 9. O coeficiente de regresso tem valor esperado igual a 1 e nessa situao indica que a predio foi no viesada. Observa-se que os valores da ltima coluna tenderam a 1, ao passo que aqueles da outra coluna foram menores que 1. Isso indica que as herdabilidades mais adequadas so aquelas estimadas por REML, ou seja, uma para cada conjunto de dados segundo o nmero de marcas.

    Assim sendo, pode-se tambm usar o coeficiente de regresso para estimar a herdabilidade a ser empregada. Vrios valores de herdabilidade so avaliados e aquele que fornecer uma regresso igual a 1 deve ser escolhido como melhor estimativa. Se a regresso der resultado menor que 1, o valor de herdabilidade avaliado foi de alta magnitude e deve ser diminudo at a convergncia para 1. Se a regresso der resultado maior que 1, o

  • 72 Computao da Seleo Genmica Ampla (GWS)

    valor de herdabilidade avaliado foi de pequena magnitude e deve ser aumentado at a convergncia para 1. Isso caracteriza o mtodo R de estimao de componentes de varincia, conforme descrito por Resende (2002).

    Acurcia via Inverso da matriz dos coeficientes

    O clculo tradicional da acurcia pelo BLUP via inverso da matriz dos coeficientes das equaes de modelo misto (e ponderao pelas frequncias allicas dos locos marcadores) no se adqua bem seleo genmica, uma vez que fornece acurcias sempre menores com o aumento do nmero de marcas (Tabela 13). Isto porque, estimada dessa forma, a acurcia reflete apenas o contedo de informao, basicamente dependente do tamanho amostral N e do nmero de parmetros n (nmero de marcadores) a serem estimados. um reflexo ento da quantidade nN /= , crescendo com o aumento dessa quantidade. No considera, portanto, o quanto cada gentipo marcador dita o mrito gentico. Assim, a acurcia via capacidade preditiva uma medida mais adequada.

    Tabela 13. Acurcia via Inverso da Matriz dos Coeficientes.

    Nmeroo Marcas Nmero Locos h2 Acurcia

    10 2,42 0,6 0,99

    250 62 0,6 0,79

    500 124 0,6 0,66

    750 186 0,6 0,58

    1.000 248 0,6 0,51

    Softwares em R

    Os seguintes softwares em linguagem R foram desenvolvidos: (i) GWS-R por Resende Jnior (2010), que emprega o mtodo RR-BLUP; (ii) BLR-R (Bayesian Linear Regression) por Perez et al. (2010), que implementa vrios mtodos (RR, Bayesian

  • 73Computao da Seleo Genmica Ampla (GWS)

    Lasso, Bayesian Ridge Regression). O pacote GWS-R realiza a estimao, a validao e tambm a anlise de associao via regresso em marcas individuais e est disponvel mediante solicitao aos autores desse trabalho.

    A seguinte sequncia pode ser adotada no uso do GWS-R.

    No Ambiente R

    As seguintes funes podem ser utilizadas no pacote:

    myData: Carrega o arquivo de marcadores

    myData(, , missingM = )

    stanData: Padroniza os arquivos de dados como mencionado em tpicos anteriores de acordo com o tipo de marcador usado

    stanData(,, frequency

    jacknife: Define o nmero de grupos utilizados na validao cruzada via Jacknife

    Jacknife(, indsel = , nv = , , , ngroups = , random = FALSE)

    BLUP: Essa funo usa os dados carregados nas funes anteriores para realizar a GS via Blup.

    BLUP(, mark.val, siglev, acc.From.Data = TRUE, Ftest = FALSE, fdr = FALSE, k = 1)

  • 74 Computao da Seleo Genmica Ampla (GWS)

    Exemplo

    > arquivo stanD jacknife blup blup$correlation

    > blup$accuracy

    As seguintes definies so necessrias:

    1C:/Ano2010/GWS-R: caminho do diretrio;

    2 dartgM.txt: arquivo com os dados dos marcadores moleculares (M marcadores x N indivduos);

    3 caminhoMM.txt: arquivo que informa sobre o arquivo de dados fenotpicos e sobre a herdabilidade;

    4 ngroups = 460: nmero de grupos para a validao Jacknife;

    5 mark.val = c(2000): nmero de marcadores a ser includo na anlise;

    6 O valor de n em lambda no programa pode ser alterado diretamente no contedo do arquivo R Pack.txt;

  • 75Computao da Seleo Genmica Ampla (GWS)

    7 O contedo do arquivo caminhoMM.txt pode ser do tipo CAP1 C:/Ano2010/gws-r/CAP1.txt 0.6 1.0, o qual informa que os dados fenotpicos esto no arquivo CAP1.txt e que a h2 a ser usada 0,60;

    8 Nesse caso, para executar o programa so necessrios os arquivos: dartgM.txt; caminhoMM.txt e CAP1.txt.

    Referncias

    BERNARDO, R.; YU, J. Prospects for genome wide selection for quantitative traits in maize. Crop Science, v. 47, p. 1082-1090, 2007.

    CAMPOS, G. de los; NAYA, H.; GIANOLA, D.; CROSSA, J.; LEGARRA, A.; MANFREDI, E.; WEIGEL, K.; COTES, J. M. Predicting quantitative traits with regression models for dense molecular markers. Genetics, v. 182, p. 375-385, May. 2009.

    DAETWYLER, H.; VILLANUEVA, B.; WOOLLIAMS, J. Accuracy of predicting the genetic risk of disease using a genome-wide approach. PLoS ONE, v. 3, n. 10, e3395, Oct. 2008.

    DIAS, L. A. dos S.; RESENDE, M. D. V. de. Domesticao e melhoramento de cacau. In: BORM, A.; LOPES, M. T. G.; CLEMENT, C. R. (Org.). Domesticao e melhoramento: espcies amaznicas. Viosa, MG: UFV, 2009. p. 251-274.

    FALCONER, D. S. Introduction to quantitative genetics. 3rd ed. Harlow: Longman, 1989. 438 p.

    FERNANDO, R. L.; HABIER, D.; STRICKER, C.; DEKKERS, J. C. M.; TOTTIR, L. R. Genomic selection. Acta Agriculturae Scandinavica, Section A - Animal Science, v. 57, n. 4, p. 192-195, 2007.

    GARRICK, D. J.; TAYLOR, J. F.; FERNANDO, R. L. Deregressing estimated breeding values and weighting information for genomic regression analyses. Genetics Selection Evolution, n. 41, v. 55, 2009.

    GIANOLA, D.; CAMPOS, G. de los. Inferring genetic values for quantitative traits non-parametrically. Genetic Research, v. 90, n. 6, p. 525-540, 2009.

  • 76 Computao da Seleo Genmica Ampla (GWS)

    GIANOLA, D.; FERNANDO, R. L; STELLA, A. Genomic-assisted prediction of genetic value with semiparametric procedures. Genetics, v. 173, p. 1761-1776, Jul. 2006.

    GIANOLA, D.; CAMPOS, G.; HILL, W. G.; MANFREDI, E.; FERNANDO, R. Additive genetic variability and the Bayesian alphabet. Genetics, v. 183, p. 347-363, Sept. 2009.

    GIANOLA, D.; PEREZ-ENCISO, M.; TORO, M. A. On marker-assisted prediction of genetic value: beyond the ridge. Genetics, v. 163, p. 347-365, Jan. 2003.

    GIANOLA, D.; VAN KAAM, J. B. C. H. M. Reproducing kernel hilbert spaces regression methods for genomic assisted prediction of quantitative traits. Genetics, v. 178, n. 4, p. 22892303, Apr. 2008.

    GODDARD, M. E. Genomic selection: prediction of accuracy and maximization of long term response. Genetica, v. 136, n. 2, p. 245-257, 2009.

    GODDARD, M. E.; HAYES, B. J. Genomic selection. Journal of Animal Breeding and Genetics, v. 124, p. 323-330, 2007.

    GODDARD, M. E.; HAYES, B. J. Mapping genes for complex traits in domestic animals and their use in breeding programs. Nature Review Genetics, London, v. 10, n. 6, p. 381391, June. 2009.

    GONZALEZ-RECIO, O.; GIANOLA, D.; LONG, N.; WEIGEL, K. A.; ROSA, G. J. M.; AVENDANO, S. Nonparametric methods for incorporating genomic information into genetic evaluations: an application to mortality in broilers. Genetics, v. 178, n. 4, p. 23052313, Apr. 2008.

    GONZALEZ-RECIO, O.; GIANOLA D.; ROSA, G. J. M.; WEIGEL, K. A.; KRANIS, A. Genome-assisted prediction of a quantitative trait measured in parents and progeny: application to food conversion rate in chickens. Genetics Selection Evolution, v. 41, n. 3, 2009.

    GRATTAPAGLIA, D.; RESENDE, M. D. V. Genomic selection in forest tree breeding. Tree Genetics and Genomes, Oct. 2010.

    HABIER, D.; FERNANDO, R. L.; DEKKERS, J. C. M. The impact of genetic relationship on genome-assisted breeding values. Genetics, v. 117, p. 2389-2397, Dec. 2007.

  • 77Computao da Seleo Genmica Ampla (GWS)

    HABIER, D.; FERNANDO, R. L.; KIZILKAYA, K.; GARRICK, D. J. Extension of the Bayesian alphabet for genomic selection. In: WORLD CONGRESS ON GENETICS APPLIED TO LIVESTOCK PRODUCTION, 9, 2010, Leipzig, Germany. [Proceedings...]. [S.l.: s.n.], 2010. Disponvel em: . Acesso em: 20 nov. 2010.

    HAYES, B. J.; BOWMAN, P. J.; CHAMBERLAIN, A. J.; GODDARD, M. E. Invited review: Genomic selection in dairy cattle: progress and challenges. Journal of Dairy Science, v. 92, n. 2, p. 433-443, 2009.

    HAYES, B. J.; GODDARD, M. E. The distribution of the effects of genes affecting quantitative traits in livestock. Genetics Selection Evolution, v. 33, p. 209-229, 2001.

    HAYES, B. J.; VISSCHER, P. M.; GODDARD, M. E. Increased accuracy of artificial selection by using the realized relationship matrix. Genetics Research, v. 91, p. 47-60, 2009.

    HEFFNER, E. L.; SORRELLS, M. E.; JANNINK, J. L. Genomic selection for crop improvement. Crop Science, Madison, v. 49, n. 1, p. 112, 2009.

    LONG, N.; GIANOLA, D.; ROSA, G. J. M.; WEIGEL, K. A; AVENDAO, S. Machine learning classification procedure for selecting SNPs in genomic selection: application to early mortality in broilers. Journal of Animal Breeding and Genetics, v.124, n. 6, p. 377389, Dec. 2007.

    MAHER, B. The case of the missing heritability. Nature, London, v. 456, p.18-21, 2008.

    MEUWISSEN, T. H. E. Genomic selection: marker assisted selection on genome-wide scale. Journal of Animal Breeding and Genetics, v. 124, p. 321-322, 2007.

    MEUWISSEN, T. H. E.; HAYES, B. J.; GODDARD, M. E. Prediction of total genetic value using genome-wide dense marker maps. Genetics, v. 157, p. 1819-1829, 2001.

    MEUWISSEN, T. H. E.; SOLBERG, T. R.; SHEPHERD, R.; WOOLLIAMS, J. A. A fast algorithm for BayesB type of prediction of genome-wide estimates of genetic value. Genetics Selection Evolution, v. 41, 2009.

    MOSER, G.; MEHAR, S. K.; HAYES, B. J.; RAADSMA, H. W. Accuracy of direct genomic values in Holstein bulls and cows using subsets of SNP markers. Genetics Selection Evolution, v. 42, n. 1, p. 37, 2010.

  • 78 Computao da Seleo Genmica Ampla (GWS)

    PARK, T.; CASELLA, G. The Bayesian LASSO. Journal of the American Statistical Association, v. 103, n. 482, p. 681-686, June. 2008.

    PREZ, P.; CAMPOS, G. de los; CROSSA, J.; GIANOLA, D. Genomic-enabled prediction based on molecular markers and pedigree using the BLR package in R. 2010. Disponvel em: . Acesso em: 25 nov. 2010.

    RESENDE, M. D. V. de; LOPES, P. S.; SILVA, R. L.; PIRES, I. E. . Seleo genmica ampla (GWS) e maximizao da eficincia do melhoramento gentico. Pesquisa Florestal Brasileira, Colombo, v. 56, p. 63-78, 2008.

    RESENDE, M. D. V. Genmica quantitativa e seleo no melhoramento de plantas perenes e animais. Colombo: Embrapa Florestas, 2008. 330 p.

    RESENDE, M. D. V. Gentica biomtrica e estatstica no melhoramento de plantas perenes. Braslia: Embrapa Informao Tecnolgica: Colombo, Embrapa Florestas, 2002. 975 p.

    RESENDE, M. D. V. Matemtica e Estatstica na Anlise de Experimentos e no Melhoramento Gentico. Colombo: Embrapa Florestas, 2007. 561 p.

    RESENDE, M. D. V. de. SelegenReml/Blup: Sistema Estatstico e Seleo Gentica Computadorizada via Modelos Lineares Mistos. Colombo: Embrapa Florestas, 2007. 361 p.

    RESENDE JNIOR, M. F. R. Seleo genmica ampla no melhoramento vegetal. 2010. 67 p. Dissertao (Mestrado em Gentica e Melhoramento) - Universidade Federal de Viosa, Viosa, MG.

    SOLBERG, T. R.; SONESSON, A. K.; WOOLLIAMS, J. A.; MEUWISSEN, T. H. E. Reducing dimensionality for prediction of genome-wide breeding values. Genetics Selections Evolution, v. 41, n. 29, 2009. Disponvel em: . Acesso em: 30 out. 2010.

    SVED, J. A. Linkage disequilibrium and homozigosity of chromosome segments in finite populations. Theoretical Population Biology, v. 2, n. 2, p. 125-141, June. 1971.

    TIBSHIRANI, R. Regression shrinkage and selection via the Lasso. Journal of the Royal Statistics Society Series B, v. 58, p. 267-288, 1996.

  • 79Computao da Seleo Genmica Ampla (GWS)

    USAI, M. G.; GODDARD M. E.; HAYES, B. J. LASSO with cross-validation for genomic selection. Genetics Research, v. 91, n. 6, p. 427-36 Dec. 2009.

    VAN RADEN, P. M. Efficient methods to compute genomic predictions. Journal of Dairy Science, v. 91, n. 11, p. 4414-4423, 2008.

    VAN RADEN, P. M.; VAN TASSELL, C. P.; WIGGANS, G. R., SONSTEGARD, T. S.; SCHNABEL, R. D.; SCHENKEL, F.; TAYLOR, J. F. Invited review: reliability of genomic predictions for North American dairy bulls. Journal of Dairy Science, v. 92, n. 1, p. 16-24, Jan. 2009.

    WHITTAKER, J. C.; THOMPSON, R.; DENHAM, M. C. Marker assisted selection using ridge regression. Genetical Research, v. 75, n. 2, p. 249-252, 2000.

    Capadoc210.pdfPgina 1Pgina 2

Recommended

View more >