análises agrupamento e dissimilaridade no genes

61
ANÁLISES DE ANÁLISES DE AGRUPAMENTO E AGRUPAMENTO E DISSIMILARIDADE DISSIMILARIDADE Mestrando: Cristiano Lemes Prof: Giovani Benin Teoria da Seleção - 2012

Upload: cristiano-lemes-da-silva

Post on 19-Jun-2015

4.452 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Análises agrupamento e dissimilaridade no Genes

ANÁLISES DE ANÁLISES DE AGRUPAMENTO E AGRUPAMENTO E DISSIMILARIDADEDISSIMILARIDADE

Mestrando: Cristiano Lemes

Prof: Giovani Benin

Teoria da Seleção - 2012

Page 2: Análises agrupamento e dissimilaridade no Genes

ANÁLISES QUE SERÃO ANÁLISES QUE SERÃO ABORDADASABORDADAS

Métodos de Agrupamento: Variáveis Canônicas Componentes Principais Transformar matriz de similaridade em dissimilaridade

Dissimilaridade: Distância Euclidiana (baseada no arquivo de médias) Distância Mahalabonis (considera as repetições) Correlação cofenética e Ponto de corte

Bootstrap e ponto de corte em dendogramas

Dissimilaridade através de marcadores: morfológicos Moleculares

Page 3: Análises agrupamento e dissimilaridade no Genes

TÉCNICAS DE AGRUPAMENTO

Os métodos de agrupamento têm por finalidade separar um grupo original de observações em vários subgrupos, de forma a obter homogeneidade dentro e heterogeneidade entre os subgrupos.

Dentre estes métodos, os hierárquicos e os de otimização são empregados em grande escala pelos melhoristas de plantas.

Page 4: Análises agrupamento e dissimilaridade no Genes

Principais análises

1 - Estimativa de uma medida de distância1 - Estimativa de uma medida de distância

Distancia generalizada de Mahalanobis

Distancia Euclidiana

2 - Adoção de uma técnica de agrupamento2 - Adoção de uma técnica de agrupamento

Variáveis canônicas

Componentes principais

Agrupamento de Tocher

Agrupamento (Vizinho mais próximo, mais distante e distância média)

Dispersão gráfica

Page 5: Análises agrupamento e dissimilaridade no Genes

FINALIDADE:

Reunir os genitores em grupos

Homogeneidade dentro de grupos

Heterogeneidade entre grupos

Segundo critérios de similaridade ou dissimilaridade

Etapas: 1 – Estimativa das distâncias

2 – Adoção de uma técnica de agrupamento

OBJETIVOS:

Identificação do par de genitores mais similares

Avalia a possibilidade de inclusão de novos genitores

Page 6: Análises agrupamento e dissimilaridade no Genes

VARIÁVEIS CANÔNICASVARIÁVEIS CANÔNICAS- Técnica de Dispersão Gráfica- exige experimento com delineamento experimental (repetições)- Para serem representativos as 2 primeiras variáveis devem

explicar pelo menos 80% da variação original dos dados;

Page 7: Análises agrupamento e dissimilaridade no Genes

- Abrir arquivo de médias

- Em “Dispersão” completar com o “cre”

- Declarar o número de variáveis

- Nomear variáveis

Page 8: Análises agrupamento e dissimilaridade no Genes

Nesse caso as 2 Nesse caso as 2 primeiras primeiras variáveis variáveis explicam explicam

mais de 80% da mais de 80% da variação original variação original

dos dadosdos dados

Page 9: Análises agrupamento e dissimilaridade no Genes
Page 10: Análises agrupamento e dissimilaridade no Genes

COMPONENTES PRINCIPAIS - Técnica de Dispersão Gráfica- Permitem a identificação da divergência genética- Não exige experimentos com delineamento experimental (usa-se

apenas o arquivo de médias)- Para ser representativo os 2 primeiros componentes devem

explicar pelo menos 80% da variação original dos dados.

Page 11: Análises agrupamento e dissimilaridade no Genes
Page 12: Análises agrupamento e dissimilaridade no Genes
Page 13: Análises agrupamento e dissimilaridade no Genes

Nesse caso os 2 Nesse caso os 2 primeiros primeiros

componentes componentes explicam explicam

mais de 80% da mais de 80% da variação original variação original

dos dadosdos dados

Page 14: Análises agrupamento e dissimilaridade no Genes
Page 15: Análises agrupamento e dissimilaridade no Genes

C. PRINCIPAIS VS V. CANÔNICAS

SEMELHANÇAS: Permitem a identificação da divergência genética;

Possibilidade de resumir o conjunto de variáveis originais em poucos componentes, o que significará ter uma boa aproximação do comportamento dos indivíduos de um espaço dimensional em um espaço bi ou tri dimensional;

Para serem representativos os 2 primeiros

componentes devem explicar pelo menos 80% da variação original dos dados;

Os componentes são independentes entre si;

Ambas utilizam dados padronizados.

Page 16: Análises agrupamento e dissimilaridade no Genes

TOCHER- Método de Agrupamento

- A média das medidas de distância dentro de cada grupo deve ser menor do que as distâncias médias entre quaisquer grupo

- Não permite comparar acessos dentro do mesmo do mesmo grupo

Page 17: Análises agrupamento e dissimilaridade no Genes
Page 18: Análises agrupamento e dissimilaridade no Genes
Page 19: Análises agrupamento e dissimilaridade no Genes
Page 20: Análises agrupamento e dissimilaridade no Genes

DISSIMILARIDADE - DISTÂNCIA DE EUCLIDIANA

Observações individuais

Experimentos que não contemplam delineamento

Experimentos com delineamento - Médias das repetiçõesDeve ser evitado

Menor precisão em relação a distancia generalizada de Mahalanobis

Page 21: Análises agrupamento e dissimilaridade no Genes
Page 22: Análises agrupamento e dissimilaridade no Genes
Page 23: Análises agrupamento e dissimilaridade no Genes
Page 24: Análises agrupamento e dissimilaridade no Genes
Page 25: Análises agrupamento e dissimilaridade no Genes
Page 26: Análises agrupamento e dissimilaridade no Genes

- Saída do Dendograma

- Desvantagem do Genes:

- Pouca possibilidade para editar e formatar as figuras

Page 27: Análises agrupamento e dissimilaridade no Genes
Page 28: Análises agrupamento e dissimilaridade no Genes

Dissimilaridade - Distância de MahalanobisDissimilaridade - Distância de Mahalanobis- Leva em conta as variâncias e covariâncias e correlações residuais - Leva em conta as variâncias e covariâncias e correlações residuais

entre os caracteres aferidos.entre os caracteres aferidos.

-Considera as repetições experimentaisConsidera as repetições experimentais

-é possível destacar a distância generalizada de Mahalanobis Dé possível destacar a distância generalizada de Mahalanobis D22

- Leva em consideração a existência de correlações entre os caracteres Leva em consideração a existência de correlações entre os caracteres analisados, analisados,

Necessita de ensaios experimentais com repetiçõesNecessita de ensaios experimentais com repetições

Page 29: Análises agrupamento e dissimilaridade no Genes
Page 30: Análises agrupamento e dissimilaridade no Genes

-Nomear as VariáveisNomear as Variáveis

- Gerar MatrizGerar Matriz

-Processar AgrupamentoProcessar Agrupamento

-BootstrapBootstrap

-Testa a consistência das bifurcações em porcentagem a partir de um Testa a consistência das bifurcações em porcentagem a partir de um número determinado de simulaçõesnúmero determinado de simulações

Page 31: Análises agrupamento e dissimilaridade no Genes
Page 32: Análises agrupamento e dissimilaridade no Genes

CONTRIBUIÇÃO RELATIVA DOS CARACTERES – SINGH 1981

Identificação dos caracteres que mais contribuíram para a

dissimilaridade genética entre os genótipos avaliados

Page 33: Análises agrupamento e dissimilaridade no Genes
Page 34: Análises agrupamento e dissimilaridade no Genes

Dendograma gerado a partir da matriz de distância de Mahalanobis

Page 35: Análises agrupamento e dissimilaridade no Genes
Page 36: Análises agrupamento e dissimilaridade no Genes

CORRELAÇÃO COFENÉTICA (CCC) Mede a correlação (ajuste) entre a matriz de distância original e as distâncias Mede a correlação (ajuste) entre a matriz de distância original e as distâncias apresentadas no dendrograma.apresentadas no dendrograma.

Muito importante quando são realizadas inferências com base no Muito importante quando são realizadas inferências com base no dendrogramadendrograma

Valores de CCC acima de 0,70 indicam uma representação confiável entre a Valores de CCC acima de 0,70 indicam uma representação confiável entre a matriz de distância original e as distâncias gráficasmatriz de distância original e as distâncias gráficas

Page 37: Análises agrupamento e dissimilaridade no Genes
Page 38: Análises agrupamento e dissimilaridade no Genes

Abrir a “matriz de distância genética” que se deseja analisar

Page 39: Análises agrupamento e dissimilaridade no Genes
Page 40: Análises agrupamento e dissimilaridade no Genes

CONSTRUINDO DENDOGRAMAS NO NTSYS

- Abrir a “matriz de distância genética” no Genes

- Exportá-lo para o Excel

- Formatá-lo conforme o modelo ao lado

Page 41: Análises agrupamento e dissimilaridade no Genes

- No NTSYS, em clustering, clicar em SAHN, e no Imput file abrir a matriz de dissimilaridade

(Excel)-

Page 42: Análises agrupamento e dissimilaridade no Genes

No No output tree fileoutput tree file, digitar , digitar um nome de saída um nome de saída

(exemplo DE = (exemplo DE = dendrograma) dendrograma)

Em Em Clustering methodsClustering methods deixar UPGMAdeixar UPGMA; aí ; aí pedir para rodar (Compute), Com isso vai pedir para rodar (Compute), Com isso vai abrir uma janela de escritas que pode ser abrir uma janela de escritas que pode ser

fechada, e após deves buscar no canto fechada, e após deves buscar no canto inferior esquerdo da janela uma figura inferior esquerdo da janela uma figura pequena em forma de dendrograma: pequena em forma de dendrograma:

Clicando nela aparece a FIGURA que pode Clicando nela aparece a FIGURA que pode ser formatada conforme interesse, sendo ser formatada conforme interesse, sendo

salva formato salva formato metafilemetafile..

Page 43: Análises agrupamento e dissimilaridade no Genes
Page 44: Análises agrupamento e dissimilaridade no Genes

Conforme exposto acima, o programa Ntsys possui vários Conforme exposto acima, o programa Ntsys possui vários mecanismos que podem ser ajustados para formatar os mecanismos que podem ser ajustados para formatar os

dendogramas da mais adequada a cada situaçãodendogramas da mais adequada a cada situação

Page 45: Análises agrupamento e dissimilaridade no Genes

Dendograma feito no Ntsys

Page 46: Análises agrupamento e dissimilaridade no Genes

MATRIZ MAHALANOBIS - NTSYS

Idem passos anteriores para Idem passos anteriores para construção do dendograma a partir construção do dendograma a partir da matriz de Distância Euclidianada matriz de Distância Euclidiana

Page 47: Análises agrupamento e dissimilaridade no Genes
Page 48: Análises agrupamento e dissimilaridade no Genes
Page 49: Análises agrupamento e dissimilaridade no Genes
Page 50: Análises agrupamento e dissimilaridade no Genes
Page 51: Análises agrupamento e dissimilaridade no Genes

CCC NO NTSYS

Lembrar do arquivo de saída

que foi salvo anteriormente

Page 52: Análises agrupamento e dissimilaridade no Genes

- Antes de começar o cálculo do CCC refazer analise de dissimilaridade no Ntsys, substituindo o nome dos genótipos por letras.

- Calcular a matriz cofenética a partir do dentrograma que foi salvo (DE). Isto é feito no mesmo local clustering, clicar em Cophenetic values, e em Imput tree file abrir o DE e na Output Coph file, colocar um nome de saída (CCC).

- Após isso clicar em “Compute”.

Page 53: Análises agrupamento e dissimilaridade no Genes

-Depois, clicar em Graphics, em seguida em Matrix comprison plot, e no Input file 1 (X) abrir a matriz de dissimilaridade do Excel, aquela do inicio, e no Input file 2 (X), abrir a matriz cofenética de nome salvo (CCC).

- No Input file 3 (X) não vai nada. No Number of permutations, digitar 1000. (feito isso pedir para rodar). Vai abrir um gráfico que quando fechado aparece uma janela de escritas, e em uma delas aparece o valor da correlação entre as matrizes e que é o valor cofenético.

Page 54: Análises agrupamento e dissimilaridade no Genes
Page 55: Análises agrupamento e dissimilaridade no Genes
Page 56: Análises agrupamento e dissimilaridade no Genes

CÁLCULO DE SIMILARIDADE GENÉTICA A PARTIR DE MARCADORES MOLECULARES

- Juntar todos os marcadores polimórficos em única planilha do Excel

- Colocar nome dos genótipos e números de códigos (exemplo 1=cálculo da similaridade; 10=número de genótipos; 182=número de marcadores utilizados)

Page 57: Análises agrupamento e dissimilaridade no Genes

- No NTSYS: entrar em Similarity, depois em quantitative date e no Input file one buscar a planilha de dados do Excel com os códigos, genótipos e marcadores.

- Deixar clicado X em By rows, Coefficient clicar em DICE, e em Output file escrever qualquer nome de saída do arquivo de similaridade (só escrever o nome que ele salva no mesmo lugar que foi buscada a planilha de dados anterior.

- Rodar a análise (compute) e depois editar o dendograma

Page 58: Análises agrupamento e dissimilaridade no Genes
Page 59: Análises agrupamento e dissimilaridade no Genes

Transformá-la em dissimilaridade

genética (1 menos os valores de

similaridade que abrirem

Após, sem números em Após, sem números em formato de fórmula, inserir uma formato de fórmula, inserir uma coluna e duas linhas, colocando coluna e duas linhas, colocando o nome dos genótipos em forma o nome dos genótipos em forma de matriz, porém, nas primeiras de matriz, porém, nas primeiras

três células da linha digitar os três células da linha digitar os códigos: 2=indica cálculo de códigos: 2=indica cálculo de

dissimilaridade, 10 e 10= dissimilaridade, 10 e 10= indicam a dimensão da matriz.indicam a dimensão da matriz.

Page 60: Análises agrupamento e dissimilaridade no Genes
Page 61: Análises agrupamento e dissimilaridade no Genes

OBRIGADO

[email protected]