aplicaciones interdisciplinares de la f sica estad stica ...ugr.es/~angulo/fisicainf/carpena.pdfla...

41
Introducci´ on Palabras clave en textos Secuenciassimb´olicas Palabras clave en ADN Clustering y complejidad Trabajo futuro Aplicaciones interdisciplinares de la F´ ısica Estad´ ıstica: Detecci´ on de palabras relevantes en textos literarios y en secuencias de ADN. Pedro Carpena Departamento de F´ ısica Aplicada II Universidad de M´ alaga

Upload: others

Post on 29-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Aplicaciones interdisciplinares de la F́ısicaEstad́ıstica: Detección de palabras relevantes en

    textos literarios y en secuencias de ADN.

    Pedro Carpena

    Departamento de F́ısica Aplicada IIUniversidad de Málaga

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Estructura de la charla

    Introducción

    Palabras clave en textos

    Secuencias simbólicas

    Palabras clave en ADN

    Clustering y Complejidad

    Trabajo futuro

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Introducción

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Introducción

    Nuestro interés por la detección de palabras clave en textos seremonta a hace unos 10 años.

    La motivación proviene del análisis de espectros energéticos desistemas cuánticos con desorden: las propiedades estad́ısticas dedichos espectros proporcionan una gran información sobre laspropiedades del sistema (conductor-aislante)

    Cuando los niveles energéticos interaccionan entre śı (usualmente, serepelen), el sistema es conductor. Cuando los niveles energéticos nointeraccionan, el sistema es aislante.

    Una manera sencilla de medir esta interacción entre niveles consisteen analizar las propiedades de la separación energética entre nivelesconsecutivos.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Introducción (II)

    • Llamemos {e1, e2, · · · , en} a los niveles energéticos de un espectro.• Definamos εi ≡ ei+1 − ei . Una forma sencilla de medir la interacción entreniveles:

    σ =

    √〈ε2〉 − 〈ε〉2〈ε〉 , con 〈ε〉 =

    ∑n−1i=1 εi

    n − 1 y 〈ε2〉 =

    ∑n−1i=1 ε

    2i

    n − 1

    σ < 1 =⇒ Repulsiónσ = 1 =⇒ Sin interacción (niveles aleatorios)σ > 1 =⇒ Atracción

    AtracciónRepulsiónSin interacción

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Introducción (III)

    La idea era aplicar la misma medida a las palabras en untexto, para ver sus interacciones.

    Nuestra idea inicial era que las palabras dentro de un textomostraran en general repulsión, porque forma parte delestilo de escritura evitar la repetición de una mismapalabra a distancia corta.

    Sin embargo, nos llevamos una sorpresa, como vamos aver.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Palabras clave en textos

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    El espectro de una palabra en un texto

    Para aplicar técnicas de análisis de espectros en palabras, necesitamosdefinirlos.

    Para una palabra cualquiera que aparezca n veces, se determinan susposiciones en el texto (p1, p2, ..., pn), que forman su espectro.

    Por ejemplo, en la siguiente frase:

    A great scientist must be a good teacher and a goodresearcher

    el espectro de la palabra ’a’ seŕıa (1, 6, 10)

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Ejemplos de espectros

    Espectros de las palabras ‘Quixote’ y ‘but’ en las 50.000 primeras palabras de

    la versión inglesa del Quijote:

    0 10000 20000 30000 40000 50000

    (248 occurrences)

    (288 occurrences)

    'but'

    'Quixote'

    position (words)

    Frequencia similar pero estructura muy diferenteLa palabra no relevante (but) se distribuye al azar

    La palabra relevante se ‘atrae’ a śı misma y forma ‘clusters’

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Propiedades generales

    Estas propiedades observadas en los ejemplos son generales:

    Las palabras relevantes/funcionales se ‘atraen’ entre śı y forman ‘clusters’.

    Las palabras no relevantes (preposiciones, conjunciones, etc) nointeraccionan consigo mismas, y se distribuyen al azar en el texto

    La razón por la que las palabras se comportan aśı tiene que ver con laforma en la que transmitimos la información.

    Un concepto importante aparece con mucha frecuencia en un determinadocontexto, cuando se está hablando de él. Pero cuando se habla de otracosa, no aparece o lo hace poco. =⇒ La palabra se ‘atrae’ a śı misma yforma ’ clusters’.

    Una palabra no relevante, de las que se usan para construir frases, puedeaparecer en cualquier parte sin restricción, y por eso lo hace al azar =⇒No interacciona consigo misma.

    Conclusión

    Si se mide adecuadamente la atracción o ‘clustering’ de una palabra en untexto, se está determinando su relevancia

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    La medida de clustering (relevancia) σ

    Aplicamos la misma idea que para los espectros energéticos

    Dado un espectro (p1, p2, · · · , pn) usamos las distancias entreapariciones sucesivas de una palabra: di = pi+1 − pi

    Propuesta: Podemos medir el clustering de una palabra, y por tanto surelevancia, con:

    σ ≡√〈d2〉 − 〈d〉2〈d〉

    Con 〈d〉 =∑n−1

    i=1 din − 1

    y 〈d2〉 =∑n−1

    i=1 d2i

    n − 1Si se ordenan las palabras de un texto por su valor de σ se obtiene unranking de relevancia bastante razonable.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Renormalización de σ: σnor

    Mejora 1) σ funciona, pero depende de la probabilidad de aparición pr = n/Nde la palabra en el texto. Podemos eliminarla mediante normalización:

    σnor =σ√

    1− prSimulación de textos aleatorios:

    0 100 200 300 400 500 600 700 800 900 10000.86

    0.88

    0.90

    0.92

    0.94

    0.96

    0.98

    1.00a)

    0 200 400 600 800 1000

    0.84

    0.88

    0.92

    0.96

    1.00

    n (word count)

    p = 0.01 p = 0.05 p = 0.1

    n (word count)

    La normalización elimina la dependencia con pr en textos aleatorios.

    σnor = 1 indica azar; σnor > 1, clustering; σnor < 1, repulsión

    PERO hay efectos de tamaño finito.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Significación estad́ıstica: la medida CMejora 2)

    Podemos asociar a σnor una significación estad́ıstica.

    Para ello, dada una palabra con frecuencia n, para la que se obtiene unvalor determinado de clustering σnor definimos la medida C como unz-score:

    C(σnor, n) ≡σnor − 〈σnor〉(n)

    sd(σnor)(n)(1)

    C mide la desviación de σnor con respecto al valor esperado en un textoaleatorio (〈σnor〉(n)) en unidades de la desviación standard esperada(sd(σnor)(n)).

    〈σnor〉(n) y sd(σnor)(n) se obtienen numéricamente simulando textosaleatorios.

    C = 0→ Distribución aleatoriaC > 0→ Atracción (clustering)C < 0→ Repulsión

    Si dos palabras tienen el mismo valor de C su clustering es estad́ısticamente

    equivalente, independientemente de n.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Resultados: palabras clave en textos literarios

    La medida C permite extraer palabras clave de textos literarios. Para ello,basta con analizar el texto y calcular el valor de C para cada palabra, yordenarlas en orden decreciente de C.

    Ejemplo: ’On the Origin of species by means of Natural Selection’, de Ch. Darwin:

    word Counts σnor C

    sterility 122 6.018 58.00hybrids 152 5.14 53.04varieties 486 3.13 47.64instincts 100 4.87 40.93species 1922 1.91 39.87plants 471 2.64 36.23crossed 116 3.97 33.65bees 92 4.18 32.36island 69 4.57 32.01instinct 79 4.33 31.65pollen 121 3.66 30.73fertility 93 3.97 30.38selection 559 2.27 30.37organs 224 2.97 30.30forms 565 2.22 29.37

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Palabras clave en textos cortos

    Al independizar los resultados de la frecuencia de aparición, C da buenosresultados también en textos cortos (aplicación en art́ıculos cient́ıficos,páginas web, etc).

    Ejemplo: las 10 primeras palabras claves extráıdas con C de 4 entradas deWikipedia “physics”, “sound”, “speed” y “statistics”.

    Palabra physics sound speed statistics```````````ranking

    # de palabras3692 1306 476 3903

    1 condensed speed per statistics2 philosophy pressure time population3 matter waves hour hypothesis4 applied noise h measurements5 physics an distance experimental6 mathematics level interval models7 classical intensity units sample8 mechanics energy an probability9 relativity pa km significance

    10 quantum hz miles mathematical

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Algunos comentarios

    Las medidas de clustering nos permiten obtener las palabrasrelevantes de un texto sin ninguna información a priori del mismo.Se basan simplemente en la distribución espacial de las palabras a lolargo del texto analizado.

    El hecho de no necesitar información externa lo hace muy versátil, ylo diferencia de otros métodos de detección de palabras clave quenecesitan de un corpus externo para comparar y decidir si unapalabra es relevante o no.

    Existen otros métodos de detección de palabras clave basadosfundamentalmente en medidas entrópicas (Shannon) y quefuncionan también sin información externa.

    Sin embargo, resultados nuestros muy recientes muestran de formacuantitativa (precision, recall, average precision, etc) que ladetección de clustering funciona mejor.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Secuencias simbólicas

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Secuencias simbólicas

    Los resultados que hemos presentado se han obtenido en textos ‘normales’.

    Son secuencias simbólicas, constrúıdas con las letras del alfabeto, en lasque se transmite información.

    Sin embargo, en los textos normales se ‘juega con ventaja’, porque seconocen las palabras del mensaje que se transmite, ya que existen losespacios separadores.

    La idea es ver si estos métodos funcionan en secuencias simbólicas másgenerales, en las que no se conozcan las ‘palabras de mensaje’, sino queconsten de una cadena continua de śımbolos (como el ADN).

    Una opción es probar textos sin espacios separadores, formando unacadena continua de śımbolos, porque es fácil comprobar los resultados.

    Ejemplo: El Quijote quedaŕıa aśı:

    enunlugardelamanchadecuyonombrenoquieroacordarme...

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Textos sin espacios

    El método funciona también en textos ’sin comas’ (sin espacios niseñales de puntuación). Es razonable: aunque se eliminen losespacios, las distancias entre palabras relevantes y comunes siguensiendo diferentes.

    Puesto que se desconocen las ‘palabras’ y sus longitudes, se tomantodos las cadenas posibles de longitud k , con k entre 2 y 35 y seordenan por sus valores de clustering.

    El resultado son linajes de palabras: cada palabra contiene palabrasmás cortas y está contenida a su vez en otras palabras más largas.

    Por ejemplo, la palabra quijote en El Quijote tiene dos ‘padres’(quijot y uijote) y diversos ‘hijos’, como lquijote o quijotey.

    Para eliminar la redundancia, cada linaje se organiza en un gráficoaćıclico dirigido (DAG) y se eligen las palabras con mayor C de cadalinaje.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Resultados: Palabras (y conceptos!) clave

    Libro: Relativity: The Special and General Theory, A. Einstein, (texto sin espacios):

    word Counts σnor C

    energy 23 4.29 19.10theuniverse 20 3.84 15.76project 35 2.73 11.85econtinuum 23 2.70 10.04thegravitationalfield 27 2.60 10.01sphere 16 2.8 9.79electron 13 2.92 9.54geometry 31 2.45 9.54theprincipleofrelativity 33 2.41 9.48specific 11 2.91 9.11theembankment 40 2.25 9.09square 28 2.41 8.92thetheoryofrelativity 32 2.31 8.78velocityv 17 2.60 8.63referencebody 56 2.01 8.50materialpoint 12 2.69 8.29thelorentztransformation 33 2.22 8.26fourdimensional 26 2.33 8.25

    ¡Detectamos correctamente palabras (y conceptos) relevantes!

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Base de datos TextKeywords

    http://bioinfo2.ugr.es/TextKeywords/

    Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):

    EspañolDon Quijote, Miguel de CervantesLa Celestina, Fernando de Rojas

    InglésRelativity: the especial and general theory, Albert EinsteinThe Origin of Species by means of Natural Selection, Charles DarwinDon Quixote, Miguel de CervantesThe Odyssey, HomeroThe Jungle Book, Rudyard KiplingMoby Dick, Herman MelvilleThe Three Musketeers, Alejandro Dumas

    AlemánFaust: Der Tragödie erster Teil, Johann Wolfgang von GoetheFaust: Der Tragödie zweiter Teil, Johann Wolfgang von Goethe

    ItalianoLa Divina Commedia di Dante, Dante Alighieri

    Lat́ınDe Bello Gallico, Julio Caesar

    http://bioinfo2.ugr.es/TextKeywords/

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Palabras clave en ADN

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Secuencias de ADN

    • El ADN puede considerarse como una secuencia simbólica formada por 4śımbolos (nucleótidos): A,T,C,G.

    • Cuando se secuencia el ADN, se obtiene algo aśı (400 nucleótidos delcromosoma 22):

    GAAACAGGCCCTGAATGGATGGAGCTCGGGGTCACTGGGCCAGCCACAGC

    CCTCAGAGGACCCCATCTCTGTGCCCTCTAACCTGGGCTCCTGGCCCACA

    CCCACCCAGGCTGCCTGTCAGGATCTGCTCCCTCTCCAGCCCTCAGAGCT

    GCCCTATGTGGAGGGTTGGGGGTCCCAGAAAACCTGGGAGAAACGGGTCC

    TGGAAACAGGGTCGGGGGGAAGGGCAGAGTGCTGGGGATGCTGGGCCCAC

    GACCTCCCTGTCCCTGGGGCTTCCCCATGTCAGAGGTGAGGCTCAGAGAG

    GTAAGGGCGCACCCTTTGTCTGCCCCCTCCCCAGCATGGCCAAGTCGCTC

    CCAGGGTGCAGGCGATGGCAGGCCATTTGTCTCCCTCCTGGGTGAGTCTC

    TGGACATGGATTCTCACATTTTTTATTTAAGAATCAGAGAGATATAAGAA

    • Las secuencias tienen gran complejidad y se analizan con multitud detécnicas (bioqúımicas y computacionales).

    • Para nosotros ahora lo importante es la información que contiene.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    El código genético

    Tras la secuenciación del genoma humano (2001), sabemos que:

    Hay 20.000-25.000 genes que codifican protéınas. La información de losgenes está escrita con el código genético.

    gen 1 gen 2 gen 3 gen 4

    ... ...gen 1 gen 2 gen 3 gen 4

    ... ...

    exón 1 exón 2 exón 3 exón 4

    gen 1 gen 2 gen 3 gen 4

    ... ...

    exón 1 exón 2 exón 3 exón 4

    ...TAGCATGCGAGGTTAC...

    Met Arg Gly Tyr

    Inicio

    codón 1 codón 2 codón 3 codón 4

    Dentro de los genes, cada tres nucleótidos (codón) codifican un aminoácido.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Evidencias de otros códigos en el ADN

    Los genes codifican protéınas, y conocemos su código. Pero...

    El número de genes es mucho menor que el esperado inicialmente. Se creeque ese número de genes es muy pequeño para explicar la infinidad y lacomplejidad de las tareas que realiza un ser vivo como el hombre.

    Los genes cubren únicamente alrededor del 2 % del genoma completo. ¿Elotro 98 % es inútil (ADN ‘basura’)?

    Con toda probabilidad, el resto de la secuencia debe contener muchainformación (‘materia oscura’ del genoma). Hay muchas evidencias:

    El 57-80 % del genoma se transcribeExiste ADN no codificador pero conservado evolutivamente.Además, se necesita una gran cantidad de información adicional almargen de las protéınas que codifican los genes.

    Hay otras capas de información en el genoma

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Información codificada

    ¿De qué información se trata?

    Información reguladora: Cómo y cuando funcionan los genes ycomo interactúan

    Mensajes posibles:

    Promotores, represores, sitios para controlar la expresión, elementosseparadores, sitios de unión a factores de transcripción, etc y lo que noconocemos

    ¿Cómo está ‘escrita’ esa información?

    No lo sabemos. Sin embargo, no está escrita de forma tan ‘sencilla’como el código genético: 3− 3− 3− ..., porque seŕıa fácil detectarla.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Antecedentes de predicción de función en ADN

    Intentos previos de predicción de función en ADN basados en tresprincipios diferentes:

    1 Sobre-abundancia de ciertas palabras (motifs).

    Problema: sólo se toman en cuenta las frecuencias de las palabras,pero no su organización espacial. Además, existe mucho ADNrepetido.

    2 Conservación evolutiva: las regiones conservadas en distintasespecies deben tener un papel funcional.

    Problema: casi la mitad de los elementos funcionales conocidosfuera de los genes no están conservados evolutivamente.

    3 Grupos de genes co-regulados: los genes que se expresan de formaparecida comparten elementos reguladores.

    Problema: incertidumbre en cuanto al número de grupos posibles,naturaleza combinatoria de la regulación.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Un posible vocabulario genómico

    Nosotros proponemos una estrategia para detectar las ‘palabras’ quecodifican la información contenida fuera de los genes (el ‘vocabulariogenómico’).

    Podemos usar los métodos desarrollados en textos sin espacios paraencontrar las palabras de ADN con alto clustering

    Por ejemplo, podemos tomar los 200 k-meros (k = 6, 7, 8) conmayor clustering en cada uno de los 24 cromosomas para definir unvocabulario.

    PERO en el ADN no sabemos si el clustering está ligado a larelevancia. Hay que demostrarlo.

    Lo hemos conseguido a través de experimentos deenriquecimiento

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Enriquecimiento y el vocabulario del genoma

    Se conocen elementos en el ADN que son funcionales, y otros que no lo son.

    Podemos comprobar si las palabras que tienen alto clustering aparecenespecialmente en regiones funcionales conocidas (exones, TFBSs) y noaparecen mucho en regiones conocidas no funcionales (ADN repetido, etc).

    Tomemos una clase de elementos funcionales (como los exones en unasecuencia) o no funcionales (como los intrones) y una palabra cualquiera.

    La densidad de la palabra dentro de esa clase: D in =nin

    Lin

    La densidad de la palabra fuera de esa clase: Dout =nout

    Lout

    El enriquecimiento es r =D in

    Dout

    r > 1: palabra enriquecida en la clase, r < 1: empobrecida, r = 1:homogénea.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    El vocabulario del genoma

    El enriquecimiento de una palabra crece monótamente con su clustering sila clase escogida es funcional

    El enriquecimiento de una palabra es independiente de su clustering si laclase escogida es no funcional

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    TFBS_cisRED Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    Exons Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    Introns Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    RM Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    TFBS_cisRED Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    Exons Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    Introns Chr1 N6 N7 N8

    0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

    0

    20

    40

    60

    80

    100

    Wor

    d en

    richm

    ent p

    erce

    ntag

    e

    σnor

    RM Chr1 N6 N7 N8

    Las palabras con clustering alto se usan preferentemente en zonas

    funcionales

    Hay algunas excepciones: palabras con clustering alto que tienen que vercon el ADN repetido (AAAAAAA,TTTTTT,etc ). Luego volveremossobre ello.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Clustering y relevancia en ADN

    La conclusión de los experimentos de enriquecimiento es que las palabrascon clustering están ı́ntimamente relacionadas con las zonas funcionalesdel genoma: son mayoritariamente ‘relevantes’.

    Tenemos una posible v́ıa para encontrar el vocabulario del genoma

    Aproximación simple: Para distintas longitudes de palabra (k-meros,con k = 6, 7, 8) podemos tomar las n primeras palabras ordenadaspor valor de clustering o las que superen un cierto umbral declustering y aplicar el algoritmo de los linajes para evitarredundancias.

    El conjunto resultante de ‘palabras’ seŕıa un buen candidato aposible vocabulario del genoma

    Estamos en ello...

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Clustering y complejidad

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Clustering y complejidad

    Hasta ahora, hemos caracterizado la distribución espacial de una palabra conun número (σnor o C).Sin embargo, el clustering puede ser simple o complejo: puede ocurrir a unadeterminada escala espacial o a muchas escalas implicadas (tipo fractal).Podemos realizar un estudio algo más detallado de esta estructura espacial.Más que un número: densidad de probabilidad de distancias entre vecinos, p(d)

    0 1 2 3 4 5 6 7 8 9 1010-3

    10-2

    10-1

    100

    p(d)

    Distance d (units of average distance)

    TATATA TGGCAT GGCGGC

    0.1 1 1010-3

    10-2

    10-1

    100

    p(d)

    Distance d (units of average distance)

    TATATA TGGCAT GGCGGC

    • Para palabras con clustering, p(d) es del tipo ‘stretched-exponential’.

    • Para palabras sin clustering, p(d) es exponencial (distribución aleatoria).

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Dimensión fractalPrimer test de complejidad: dimension fractal de los espectros dbox = − d log nd log sn: número de segmentos necesarios para cubrir el espectros: tamaño de los segmentos

    100 101 102 103 104 105 106

    10-2

    10-1

    100

    TAAGGCTATATAGGCGGC

    box-scale (bp)box-scale (bp)

    num

    ber o

    f box

    es

    box-scale (bp)100 101 102 103 104 105 106

    10-2

    10-1

    100

    -1

    100 101 102 103 104 105 106

    10-2

    10-1

    100

    Encontramos tres comportamientos:1) Palabras con clustering y relevantes: dos reǵımenes fractales.2) Palabras con clustering no relevantes (excepxiones): un régimen fractal aescalas muy pequeñas.

    3) Palabras sin clustering: sin régimen fractal.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Correlaciones de largo alcance

    • Para cada palabra en una secuencia de ADN creamos una secuencia auxiliar S(i), con S(i) = 1si en la posición i aparece la palabra estudiada, y S(i) = 0 si no lo hace.

    • Estudiamos las correlaciones de largo alcance de S(i) usando DFA, que estudia las fluctuacionesF (`) de una señal (S(i)) con respecto a su tendencia local a esa escala `. Hay correlaciones siF (`) ∝ `α

    • Si α = 0,5, no hay correlaciones (azar). Si α > 0,5, hay correlaciones positivas, crecientes con α.

    • Se puede calcular un α local: α(`) =d log F (`)

    d log `

    101 102 103 104 105

    -2.0

    -1.5

    -1.0

    -0.5

    0.0

    0.5

    1.0

    1.5

    pendiente 0.5

    log 1

    0(F

    (l))

    escala l (bp)

    AAAAAA GGCGGC TAAGGC

    101 102 103 104 105

    0.5

    0.6

    0.7

    0.8

    0.9

    1.0

    1.1

    α(l)

    escala l (bp)

    AAAAAA GGCGGC TAAGGC

    1) Las palabras con clustering no relevantes sólo tienen correlaciones a escalas muy pequeñas.2) Las palabras con clustering y relevantes poseen correlaciones a escalas intermedias (funcionales)3) Las palabras sin clustering no tienen correlaciones.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Clustering en múltiples escalas: wavelets

    • Las palabras no relevantes presentan fluctuaciones de densidad sólo aescalas pequeñas.

    • Las palabras relevantes presentan fluctuaciones de densidad fuertes ycomplejas a muchas escalas.

    Palabra norelevanteCGTAGTσnor ' 1

    Palabra re-levanteGGCGGCσnor ' 2

    0 10000000 20000000 300000003

    4

    5

    6

    log(

    scal

    e)

    0 10000000 20000000 300000003

    4

    5

    6

    log

    (sca

    le)

    0

    0.5

    1

    1.5

    2

    2.5

    3

    3.5

    4

    4.5

    5

    Position in the sequence (bp)

    Human chromosome 22 (q-arm) (p local)/(p global)

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Conclusión

    En el ADN, el clustering únicamente NO es sinónimo derelevancia, porque existen excepciones asociadas a laexistencia de ADN repetido.

    PERO si el clustering además presenta una estructuraespacial compleja, entonces la palabra es relevante

    Por tanto, la complejidad nos ayuda a filtrar palabras conclustering no relevantes, y nos puede servir para refinar losvocabularios genómicos.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Trabajo futuro

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Redes complejasEstamos en condiciones de encontrar las ‘palabras’ con las que se escribe la información enADN

    Pero

    No sabemos cómo se usan estas palabras (reglas de escritura)No sabemos qué significan (semántica)

    Proponemos el uso de la Redes Complejas

    Se usan para estudiar las propiedades de sistemas con muchos elementos que interaccionanentre śı de manera compleja.

    Cada elemento del sistema es un nodo

    Si dos nodos interaccionan, entre ellos se establece un ‘link’

    Estudiando las propiedades topológicas de la red (grado de conexión, distancia entre nodos,existencia de subredes, etc) se puede entender el funcionamiento del sistema que modela.

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Tipos de redes

    Proponemos analizar dos tipos de redes

    Redes de palabras. Cada palabra de nuestro vocabulario es unnodo. Los links entre nodos se establecen por proximidad en lasecuencia. Nos permitirán determinar las reglas de escritura

    Redes de genes. Cada gen es un nodo, y los links se establecenentre genes que compartan palabras del vocabulario. Nos permitirándeterminar las propiedades semánticas

    Nos vamos a divertir...

  • Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

    Grupo de trabajo

    Universidad de Málaga (F́ısica Aplicada II)

    Pedro Carpena (email: pjcarpenauma.es)

    Pedro Bernaola

    Ana V. Coronado

    Concepción Carretero

    Universidad de Granada (Genética)

    José L. Oliver

    Michael Hackenberg

    Guillermo Barturen

    IntroducciónI1I2I3

    Palabras clave en textostexto1espectros de dos palabrastexto2Medida del clusteringtexto3Significación estadística: la medida CTextos literariostexto4textos7

    Secuencias simbólicassimb1Textos 'sin comas'conceptosBase de datos TextKeywords

    Palabras clave en ADNsecuencias de ADNOtros códigosotros2información codificadaAntecendetes en ADNVocabulariosEnriquecimiento y el vocabulario del genomaEl vocabulario del genomarel5

    Clustering y complejidadcomple1comple2comple3comple4comple5

    Trabajo futuroRedesredes2