1 modelamiento de la técnica vocal musical lírica

1

Modelamiento de la técnica vocal musical lírica analizando patrones en formantes de la voz humana

3

Modelamiento de la técnica vocal musical lírica analizando patrones en

formantes de la voz humana

Proyecto De Grado Presentado al

Departamento de Ingeniería eléctrica y electrónica

Presentado por

Camilo Ernesto Motta Zambrano Autor

Alba G. Ávila Bernal Asesor

Para optar por el título de: Ingeniero Electrónico

Universidad de los Andes Ingeniería eléctrica y electrónica

Julio de 2010

5

Dedicado a la persona que más amo en el mundo Aquella fuente de pasión por la vida, justicia, y profesionalismo,

Aquella por quien jamás voy a desfallecer A quien doy gracias por su comprensión

Mi madre

6

Prefacio y agradecimientos

La motivación principal de empezar una investigación como esta fue siempre sentir el orgullo de aportar al mundo no solo desde el punto de vista ingenieril sino también desde el punto de vista artístico, que gracias a Dios, a la educación y el amor de mi Madre, ha estado presente en mí. Agradezco mucho a la Doctora Alba Ávila Bernal por haberme dado la oportunidad de abordar este estudio, confiar en mis aptitudes para desarrollarlo, y sobretodo creer en la ingeniería como colaboradora e incentivadora de desarrollo en áreas tan humanamente llenadoras como lo son la música el arte y las humanidades.

Una de las ventajas más grandes de este estudio fue la interdisciplinariedad a la cual estuvieron ligadas las facultades de Ingeniería Electrónica y Música de la universidad de los Andes. La primera lo demostró al darme la posibilidad de contar con el mejor equipo técnico para desarrollar las grabaciones en ese espacio mágico casi inimaginable, que fue mi casa durante estos 6 meses: La cámara anecóica. Infinitas gracias a esta facultad, y al profesor Juan Carlos Bohórquez a quien tanto interrumpí solicitando la cámara anecóica para grabar cantantes liricos, mientras él y su grupo de investigación desarrollaban pruebas electromagnéticas en ese lugar.

La facultad de Música, Artes y Humanidades sin quedarse atrás confió en la habilidad de un uniandino apasionado por el canto y su ciencia, y le colaboro en todo lo que estuvo a su alcance. Agradezco inmensamente a mis Maestros de canto: la Doctora y Maestra Carolina Gamboa Hoyos, la Maestra María Clara Serrano, y el Maestro Andrés Silva, por sus aclaraciones y guías relacionadas con la anatomía del aparato fonatorio y su relación con la técnica vocal musical lírica.

Infinitas gracias a los estudiantes de canto de la universidad de los andes: Las sopranos Paola Monroy, Ingrid Delgadillo, Mónica Danilov, Paulina Arango, Meliza Metzger. Los bajos Carlos Daniel Soler y Juan Hernández.

Asimismo quiero agradecer de sobremanera a los cantantes colaboradores, miembros del coro de la Opera de Colombia y estudiantes de canto de la facultad de música de la Universidad Central, la cual disfruta del mejor programa de canto lirico de Bogotá, gracias a su directora, la Maestra Sarah Cullins. A quien también agradezco inmensamente por facilitar la gestión de grabación de sus estudiantes. Específicamente quiero agradecer a los siguientes cantantes de la universidad central: Las Sopranos Ana María Moreno, Carolina Montilla, Vanessa Cera, Ana María Ruge. El tenor Camilo Delgado.

De igual forma quiero agradecer la colaboración del Tenor Carlos Gómez y la soprano Elizabeth Guzmán, alumnos del Maestro Carlos Godoy, de la Pontificia Universidad Javeriana.

Reitero mi sentido de gratitud a todos los colaboradores de este proyecto esperando que se siga manifestando en los estudiantes de ingeniería de la Universidad de los Andes, el estudio e interés por la Tecnología Musical, que en la actualmente está teniendo gran influencia en la industria artística y pide a gritos los aportes de la ingeniería.

8

Índice general

Prefacio y agradecimientos VI Introducción X

Objetivos Generales XI

Objetivos específicos XI

1. Teoría básica de la producción de la voz 13

1.1. Producción y fisiología de la voz……………………………………………… 13 1.2. Tipos de sonidos producidos por el tracto vocal……………………………… 14 1.3. La señal de la voz: Formantes y frecuencia fundamental……………………. 14 1.4. Relación con la técnica vocal como motivación de la investigación………… 14

2. Toma de datos 16

2.1 Ambientes de grabación……………………………………………………….... 16 2.2 Equipos de grabación………………………………………………………….... 16 2.2.1 Transductor…………………………………………………………... 16 2.2.1.1 Otras ventajas……………………………………………… 17 2.2.2 Interfaz AUDIO/MIDI de grabación………………………………..... 18 2.3 Ventajas del tipo del tipo de grabaciones escogidas……………………………. 19 2.4 Selección de cantantes y metodología de grabación……………………………. 20

2.4.1 Porque tiene sentido la grabación de errores no intencionados en este estudio?.................................................................................................... 20 2.4.2 Tipos de sonidos grabados……………………………………………. 20

3. Pre-procesamiento, Análisis, y extracción de características en los datos 25

3.1 Segmentos analizados…………………………………………………………… 25 3.2 Software utilizado y sus características en el procesamiento…………………… 26

3.3 Primeras consideraciones tomadas en cuenta para mejorar aún más la calidad de las grabaciones…………………………………………………………………… 26 3.4 Métodos utilizados en la extracción de características…………………………. 27

3.4.1 Análisis en el dominio del tiempo……………………………………. 27 3.4.1.1 Componentes de la envolvente en tiempo…………………. 27 3.4.1.2 Primer Método: Transformada de Hilbert…………………. 27

3.4.1.3 Relación de la transformada de Hilbert con las partes De la envolvente y su aplicación al estudio………………………... 28

3.4.1.4 Aporte al vector de características del algoritmo de entrenamiento……………………………………………………….. 29

3.4. 2 Análisis en el dominio de la frecuencia……………………………… 30 3.4.2.1 Segundo Método: Aproximación de formantes a partir de

Formantes a partir de sumas de picos gaussianos…………………… 31 3.4.2.1.1 Prueba de precisión del método…………….......... 32

9

3.4.2.1.2 Aporte al vector de características del clasificador. 34 3.4.3 Tercer Método: LPC (Linear Predictive Coding)……………………... 34 3.4.3.1 Teoría básica del método…………………………………... 34 3.4.3.2 Caracterización del método…………………………………. 35

3.4.3.3 Posibles debilidades del método……………………………. 36 3.4.3.4 Importancia histórica del método…………………………… 36 3.4.3.5 Lectura del método para la extracción de características…… 36 3.4.3.6 Aplicación a una grabación, como ejemplo y prueba de Precisión del método………………………………………………... 37 3.4.3.7 Aporte al vector de características del clasificador……….... 40

3.4.4 Cuarto Método: Cepstrum…………………………………………….. 41 3.4.4.1 Caracterización del método………………………………… 41 3.4.4.2 Lectura del método para extracción de características……… 42

3.4.4.3 Aporte al vector de características del clasificador………… 42 3.4.4.4 Aplicación del método a una grabación como ejemplo……. 43

3.4.5 Análisis en Tiempo-Frecuencia……………………………………….. 45 3.4.5.1 Distribuciones de energía…………………………………… 45

3.4.5.2 Quinto Método: Distribuciones de Tiempo-Frecuencia de Wigner Ville y espectrograma……………………………………… 45 3.4.5.3. Utilidad al proyecto y aporte al vector de características…. 47

4. Entrenamiento de algoritmos clasificadores 49 4.1 Teoría básica de algoritmos de clasificación……………………………. 49

4.2 Vector de características y división de datos…………………………… 51 4.3 Primer clasificador implementado………………………………………. 51 4.3.1 Metodología aplicada en el primer clasificador……………… 52 4.3.2 Inconvenientes en número de datos y errores………………… 52 4.3.3 Resultados en el conjunto de datos de prueba………………... 52

4.4 Entrenamiento de una Maquina de Soporte Vectorial como Segundo clasificador………………………………………………………… 53 4.4.1 Mitologías y sus resultados…………………………………… 54 4.4.1.1 Primer entrenamiento………………………………. 54 4.4.1.2 Segundo entrenamiento…………………………….. 55

5. Conclusiones y trabajo a futuro 58 5.1 Conclusiones……………………………………………………………. 58

5.2 Trabajo a futuro………………………………………………………… 59

Bibliografía 60 Bibliografía consultada y recomendada (no referenciada) 62

A. Extracción de características 63 A.1 Código……………………………………………………………………… 63

A.1.1 verespectro.m………………………………………………………… 63 A.1.2 campana.m…………………………………………………………… 64 A. 1.3 Prueba_Caracteristicas.m…………………………………………… 67

10

Introducción

El tratamiento y reconocimiento de características en el discurso humano como señal o “speech” ha sido objetivo de muchas investigaciones, con aplicación en distintas áreas de la ingeniería. Por ejemplo en comunicaciones, para saber en qué banda promedio de frecuencia se encuentra el espectro de voces de una región habitada a la que se esté brindando servicios de telecomunicación, para así amplificar o atenuar según se necesite y mejorar la calidad de escucha. Es tal el interés por mejorar el error en la caracterización de este tipo de señal que varias técnicas y algoritmos se han aplicado también en el área musical y el procesamiento de audio. Numerosos investigadores han realizado trabajos relacionados con clasificación y reconocimiento de características en speech y música.Por ejemplo, Foote [1] empleó técnicas espectrales para distinguir entre voz y música con un alto grado de exactitud, Perry Cook [2]estructuro un modelo físicamente parametrizado del tracto vocal para hacer síntesis de la voz durante el canto. Los análisis tenidos en cuenta para realizar dicho modelo se han seguido utilizando y complementando en los últimos años para fines más específicos, como por ejemplo la investigación hecha por Zhenli Yu y P.C. Ching [3] quienes lograron determinar con un error muy bajo formas del tracto vocal a partir del análisis de frecuencias formantes, teoría de perturbación y el método de interpolación. Este proyecto está enfocado hacia la caracterización y clasificación de 4 errores generalmente encontrados en la práctica de la técnica vocal musical lirica la cual propone ciertas normas de respiración y una serie de lineamientos para la buena educación de la voz, basados en cambiar la posición de ciertas partes del cuerpo como la boca, los labios, el maxilar, y la lengua. La idea de este proceso es hacer que el cantante cree una sincronización entre estos movimientos y la calidad de sonido emitido. Esta última característica puede verse como algo muy subjetivo, pero generalmente se trata de un sonido continuo, con potencia predominante, y rico en armónicos. El mejor ejemplo de un sonido rico en armónicos es aquel producido por un piano de cola cuando se pulsa una de las teclas. Esto hace que ocurra una perturbación en una cuerda y empiecen a través de ella a viajar millones de ondas que se encuentran y superponen dando origen a un sonido muy particular agradable al oído. Caso contrario al sonido generado por una organeta electrónica, el cual se escuchara un poco “seco” o tal vez incompleto en comparación al caso anterior ya que es un tono producido por un oscilador electrónico que asemeja un tono puro. Este estudio combina las características principales de la anatomía del aparato fonatorio relacionadas con la técnica vocal musical lírica y técnicas de análisis y síntesis de la voz humana, tales como la Transformada Cepstrum y LPC (linear predictive coding), explotando en ambas su poder de caracterización de sonidos sonoros (voiced sounds) y sus nociones de procesar el habla como salida de un sistema LTI que representa al tracto vocal. Asimismo utiliza la transformada de Hilbert y la auto-correlación de la señal con sigo misma como arma para encontrar los segmentos de la señal del habla dominados por sonidos sonoros. Se realiza una aproximación en frecuencia de cada formante de las señales en el dominio de la frecuencia de una forma muy particular explotando la naturaleza de las partes de la envolvente en tiempo y su relación con la dinámica de la voz cantada. Por último se recurre al análisis en tiempo-frecuencia más específicamente al análisis PSD de frecuencias vecinas en espectrograma y cambios de gradiente en los picos vecinos en distribuciones Wigner-Ville de tiempo-frecuencia [7].De todas estas herramientas anteriormente nombradas se obtuvo el conjunto de datos de entrenamiento y prueba utilizados en la clasificación de cada error.

11

Objetivo General

Entrenar un algoritmo inteligente que reciba datos procesados de una grabación de voz cantada con ciertas características, y clasifique con cierta probabilidad de acierto en cuál de los siguientes 4 errores raíz de la técnica vocal, esa voz está incurriendo: Canto de garganta, Canto nasal, Canto con poca y constante apertura de la boca, Canto con lengua levantada o si se está aplicando una técnica vocal adecuada. Esta última categoría sería una opción más de las posibles que tendría el algoritmo para clasificar los datos de entrada, es decir se tendrían 5 categorías de clasificación en total.

Objetivos Específicos

• Estudiar a fondo el proceso de producción de la voz, teniendo en cuenta aspectos como la fisiología de los aparatos del cuerpo humano que intervienen, tipos de sonidos que se generan, su relación con la técnica vocal, y diferencias principales entre el discurso humano (Speech) y la voz cantada.

• Estudiar, encontrar y Aplicar herramientas de análisis en tiempo y frecuencia, entre otros algoritmos usados actualmente para el tratamiento de la voz con el objetivo de caracterizar de la mejor forma comportamientos específicos de los 4 errores raíz de la técnica vocal lírica, mencionados anteriormente.

• Llevar a cabo sesiones de registro de voces de distintos tipos teniendo en cuenta aspectos definitivos para una buena calidad de grabación como tipos de transductores, interfaz y software de recepción de datos, recinto de grabación, técnicas de ubicación espacial de micrófonos, entre otras.

• Estructurar un modelo de obtención de datos que caractericen los aspectos estudiados más importantes de la voz cantada. Aplicar este modelo a las grabaciones tomadas para así obtener un banco de datos numéricos que entrene el algoritmo inteligente.

• Dividir el banco de datos obtenido en conjunto de datos de entrenamiento y conjunto de datos de prueba, entrenar el algoritmo inteligente con el primer conjunto y estimar con el segundo conjunto el nivel de predicción del algoritmo entrenado. Si el nivel de clasificación no es lo suficientemente bueno se procederá a cambiar parámetros de entrenamiento propios del algoritmo.

13

Capítulo 1

Teoría básica de la producción de la voz Es de suma importancia hacer explícitas las características más importantes en el comportamiento del aparato fonatorio, y su relación con el proceso de producción de la voz cantada. Esto sustentara la forma en la que se abordaron algunos métodos utilizados durante la toma de datos.

1.1. Producción y fisiología de la voz

Aunque este proceso natural en el cuerpo humano involucra varios sistemas en su desarrollo, dos son esencialmente los más importantes. Estos son el “aparato respiratorio” y “el aparato fonatorio”. Todo empieza en los pulmones donde a través de la inhalación se almacena el aire, que luego va a ser retirado mediante compresión de las paredes de este órgano. Durante la exhalación y a través de los bronquios el aire pasa de los pulmones a la tráquea para empezar su recorrido hacia afuera del cuerpo humano. Antes de llegar a la laringe el aire pasa por la glotis que es la cavidad cartilaginosa donde están contenidas las cuerdas bucales. Estas a diferencia de la apariencia cordófona que se pensaría tienen, son 4 pliegues a forma de labios que intervienen en el paso del aire. Dos de estas llamadas superiores, no intervienen en la producción de la voz, y las inferiores si lo hacen. Estas cuerdas bucales inferiores deforman el flujo lineal de aire que sube por la tráquea haciendo que se forme una onda, que será la señal original del proceso. La siguiente grafica hace explicito el proceso:

Figura 1. Modelo simple del aparato fonatorio

14

Como el modelo anterior lo describe luego de formarse la señal fuente, esta pasa por la cavidad faríngea donde se producen pequeñas turbulencias, para luego pasar a la cavidad nasal o a la cavidad bucal. Este paso se da con mayor dificultad a la cavidad nasal debido a las posición característica del “velo” y a la estreches que presenta esta cavidad, es por esto que un sonido nasal es tan particular y puede identificarse con facilidad. En la cavidad bucal pueden presentarse turbulencias pequeñas debido a la posición momentánea en la que se encuentren sus partes. Lo que hace que se las características del sonido también cambien.

1.2. Tipos de sonidos producidos por el tracto vocal

En el estudio de la voz se identifican dos tipos de sonidos: “Sonidos Sonoros” (Voiced Sounds) y “Sonidos Sordos” (Unvoiced Sounds). Se le da uno de estos dos nombres a los sonidos dependiendo de dónde se origina la fonación de los mismos. Los sonidos de todas las vocales y algunas consonantes como “m” ,”n” ,”l” que son producidos en un 90% por las cuerdas bucales, son “sonoros”, mientras que las otras consonantes como “f” ,”s”, ”t” son “sordos”. En sonidos sordos la fuente de fonación no son las cuerdas bucales si no turbulencias extremas provocadas por ciertos segmentos del tracto vocal. Las consonantes más difíciles de clasificar por su tipo de sonido son “z” y “v”, ya que poseen ambos tipos de sonoridad (sonora y sorda).

1.3. La señal de la voz: Formantes y frecuencia fundamental

Como resultado de la vibración de las cuerdas bucales al pasar el flujo de aire a la altura de la glotis, se presentan cambios de presión de aire en el tracto vocal. La frecuencia y la magnitud originales de estas perturbaciones de aire forman la señal de la voz. Recordemos que esta señal, que se origina a la altura de la glotis, debe recorrer todavía el resto del tracto vocal, este recorrido final, consiste en pasar por otras cavidades supra-glóticas resonadoras y atenuadoras de frecuencias. Dichas cavidades tienen varias frecuencias naturales, es decir que vibran si entran en contacto con ciertas frecuencias, por lo tanto cuando la señal pasa por estas cavidades, las frecuencias que acompañan a la frecuencia original de la señal también llamada frecuencia fundamental o “pitch”, se refuerzan en amplitud. Al mirar el espectro de una señal de voz se pueden apreciar varios picos, el más pronunciado estará ubicado en la frecuencia fundamental y el resto, en frecuencias correspondientes a múltiplos enteros de esta llamadas armónicos, los cuales van decreciendo su amplitud con el aumento de la frecuencia. Estos armónicos no aparecen como una línea vertical sola, si no como varias alrededor de esa frecuencia que es múltiplo entero de la fundamental (Ver figura 15). A este conjunto de picos y pronunciamientos alrededor de un armónico se le conoce como formante. La forma en la que las amplitudes están distribuidas en los formantes es lo que caracteriza el color de voz de una persona, ya que brinda información de que frecuencias están siendo reforzadas en su tracto vocal, y esto puede cambiar por razones anteriormente expuestas si la forma de las cavidades supra-glóticas cambia. Estos cambios que se producen durante la práctica de la técnica vocal son el objetivo de este estudio.

1.4. Relación con la técnica vocal como motivación De la investigación.

Como se hizo explicito anteriormente, el paso del flujo de aire a través de todo el tracto vocal se ve sometido a varios tipos de deformación debido a las cavidades y órganos por los cuales tiene

15

que pasar antes de volverse sonido externo. La técnica vocal se basa en el entrenamiento y sincronización de movimientos de órganos del cuerpo humano que deforman el tracto vocal de cierta forma para que se generen sonidos externos agradables a la percepción del ser humano, comenzando desde el diafragma con su presión sobre los pulmones hasta las cavidades, nasal y bocal. Las siguientes son las características más importantes de un cuerpo humano entrenado con técnica vocal lirica:

• Durante la inhalación el diafragma se acostumbra a bajar y actúa como válvula de entrada de aire, haciendo presión sobre la parte alta del pulmón que está llena, generando más espacio.

• La boca debe tener una apretura proporcional a la frecuencia del sonido que se esté emitiendo: Si se está cantando una nota alta, la boca debe tener una apertura amplia, en cambio, sí se canta una nota grave (en la escala del piano, cualquier nota de la primera o segunda octava) la apertura de la boca debe ser más pequeña.

• La lengua debe ir siempre detrás de los dientes para incrementar el tamaño de la cavidad faríngea y asimismo la capacidad del cantante de hacer notas más altas sin que suenen forzadas o de garganta. Esto además ayuda a disminuir el estrés en la mandíbula que es muy común en cantantes amateur.

• El “paladar blando” o “velo del paladar” debe estar siempre levantado para evitar que el aire ingreses a la cavidad nasal y se produzca su sonido característico y a veces molesto.

• El sonido no debe nunca hacer fonación con “golpe de glotis”. Es decir voz de garganta que es una voz que no es producida en sincronización con la presión del diafragma en los pulmones si no por esfuerzo neto de garganta.

Todo esto demuestra que el tracto vocal completo actúa como caja resonadora y atenuadora (filtro) de frecuencias formantes que van sumándose a la perturbación de aire creada en la glotis y que finalmente se convierte en la voz. Este estudio de cambios en dichas frecuencias formantes y sonidos en ondas acústicas grabadas, son los agentes principales estudiados en este proyecto con el fin de caracterizar los cuatro errores raíz (que desencadenan el resto de errores) de la técnica vocal: Canto de garganta, canto nasal, Canto con poca y constante apertura de la boca, y canto con lengua levantada.

Por ultimo cabe aclarar que la ventaja más grande de este estudio es que los sonidos cantados, aun siendo estimados como errores en la técnica vocal, son “sonidos sonoros”, lo que hace que se puedan utilizar herramientas de análisis lineal y se obtengan buenos resultados como se verá más adelante.

16

Capítulo 2

Toma de datos

En esta sección se hacen explícitos todos y cada uno de los aspectos tomados en cuenta en la toma de datos o grabación de las voces, mencionando procesos como selección de ambientes y equipos de grabación, selección de voces, tipos de sonidos a grabar, etc., siempre dejando en claro que todos estos procedimientos son fundamentales para tener una alta calidad en los datos, lo que se traduce en disminuir distintos tipos de ruido que pueden intervenir en una sesión de grabación aun teniendo equipos apropiados para tal fin.

2.1. Ambientes de grabación

Es claro que los datos a analizar serian archivos de audio con grabaciones de cantantes cuyas voces tuviesen ciertas características. Las grabaciones debían hacerse en un espacio donde no hubiese ruido ni por fuentes externas ni por características acústicas malas del sitio. Por esta razón se decidió tomar los datos en una cámara anecóica, donde aplicar las mejores técnicas de grabación y utilizar excelentes equipos, iba a atenuar significativamente la magnitud de las reflexiones tempranas (reverberación y eco) y el ruido de las mediciones no sería una limitante a futuro en la obtención de características y pre-procesamiento de las señales.

2.2. Equipos de grabación

2.2.1 Transductor

Siempre es de suma importancia saber los criterios de selección de los equipos a utilizar en distintas aplicaciones de grabación. En este caso se necesitaba un tipo de transductor o micrófono cuya respuesta en frecuencia en la banda en la que se fuese a trabajar, no pudiese atenuar o amplificar de forma no lineal información valiosa en la caracterización de cada uno de las 4 errores. Por esta razón se eligieron micrófonos Omnidireccionales Behringer ECM8000 cuya imagen, patrón polar y respuesta en frecuencia se muestran a continuación:

Figura 2. Micrófono Omnidireccional Behringer ECM8000

17

Figura 3. Patrón Polar Behringer ECM800

Figura 4. Respuesta en frecuencia del transductor

De las figuras anteriores se pueden deducir los beneficios y la conveniencia del uso de este transductor:

• De su patrón polar se deduce que es uniformemente sensible es decir que recoge aproximadamente la misma cantidad de sonido en todas las direcciones.

• Posee una respuesta plana en un rango de frecuencias amplio y muy apropiado para esta investigación ya que la respuesta empieza a amplificar frecuencias desde los 2500 Hz, que es un valor extremo alto, en el canto lirico, alcanzado con dificultad por cantantes, aun en el registro de voz femenina, por lo tanto no se iba a alcanzar ya que la idea era tomar grabaciones en rangos donde las voces estuviesen más cómodas y así obtener buenos resultados.

• Como se puede apreciar en la figura 4, la respuesta en frecuencia plana es cada vez es más grande si la distancia entre la fuente sonora y el micrófono está por encima de 1 metro. Esto hace que se tenga un rango de trabajo en frecuencia seguro (que no habrá amplificación o atenuación en los que se grabe) más amplio y que todo lo grabado quede en ese rango.

2.2.1.1. Otras ventajas:

A parte de las excelentes características técnicas que ofrecía este transductor, una de sus principales ventajas fue su costo, ya que estaba muy por debajo del resto de micrófonos de medición profesional con factores similares. En segunda instancia era un micrófono de tecnología de “condensador”: Son los micrófonos de mejor calidad, muy sensibles, que miden voltajes producidos por cambios en la separación entre placas metálicas que ocurren con las vibraciones de ondas acústicas.

18

2.2.2 Interfaz Audio/MIDI de grabación

Una interfaz de grabación es un elemento comúnmente usado en la ingeniería de sonido y en grabaciones caseras para obtener excelentes registros de sonido ya que este dispositivo posee circuitos de muestreo mucho más efectivos que los de una tarjeta de sonido convencional de computador y puede trabajar recibiendo y enviando datos a un computador controlador a grandes velocidades lo que hace que la probabilidad de perdida de información sea muy baja, en otras palabras que la grabación sea de alta calidad. La interfaz audio/MIDI utilizada en este caso fue una Fast Track Pro de M-Audio pequeña, con dos entradas de micrófono XLR de las cuales solo se utilizó una. El resto de especificaciones de este dispositivo se hacen explicitas en la página web de M-Audio [10]. A continuación se presenta un diagrama de visión frontal y trasera de este elemento:

Figura.5 Vista frontal y trasera de una interfaz de grabación Fast Track Pro de M-Audio.

El control de este dispositivo se realiza a través del software “Protools M-powered 7.4” de “Digidesign” que se instala en un computador que tenga ciertos requerimientos mínimos de funcionamiento [11] y el cual se comunica con la interfaz a través de un cable USB de periférico o tipo B. De esta forma el diagrama esquemático del sistema total de toma de datos seria el siguiente:

Figura 6. Diagrama esquemático del sistema general de toma de datos

A continuación se hace explicita una representación real del sistema total de grabación:

��

��

19

Figura 7. Representación real de conexión del sistema de toma de datos

En conclusión sistema general de grabación utilizado estuvo compuesto por una interfaz AUDIO/MIDI y un computador que controlaba por puerto USB las características de la señal de entrada al micrófono a través del software “Protools M-Powered 7.4” de Digi Design, Uno de los software más utilizados en estudios de grabación ya que trae una interface gráfica de manipulación de archivos que permite abrir varios canales de grabación a la ves y apreciar visualmente la forma de onda de las grabaciones. Además ofrece la opción de obtener grabaciones en múltiples formatos, tazas de muestreo, y magnitud en bits etc. (Ver figuras 7 y 8).

2.3. Ventajas del tipo de grabaciones escogidas

En este caso se decidió que las grabaciones fuesen archivos de audio tipo .WAV generados con una taza de muestreo de 44.1Khz. La razón por la cual se hiso esto es por la compatibilidad que tiene este tipo de archivo con software de procesamiento de información numérica como Matlab y Mathemtica. Además se escogió esa taza de muestreo ya que era una de las más elevadas ofrecidas por Protools M-Powered y porque que estaba muy por encima de la frecuencia máxima que puede alcanzar una soprano (la voz humana más aguda existente) en esta aplicación lo que permitía según el teorema de Shannon-Nyquist [12] dar certeza de tener un muestreo adecuado. Otra gran ventaja de escoger esta taza de muestreo es que el tamaño de los archivos es adecuado (no es tan grande) y permite realizar el procesamiento de las grabaciones en tiempos cortos, ya que si se aumentaba este último parámetro a 99Khz (que es el siguiente valor

20

posible ofrecido por el software) el tamaño de los archivos hubiese sido bastante grande y el análisis de los mismos se complicaría debido a los tiempos de procesamiento computacional.

2.4. Selección de cantantes y metodología de grabación

Recordemos que el objetivo principal del proyecto es el de tomar datos numéricos obtenidos de un pre-procesamiento hecho a grabaciones de voz y decir a cuál de los 4 errores estudiados pertenecen o si hace parte de un quinto grupo perteneciente a una técnica vocal adecuada. Para este último grupo de clasificación era necesario grabar cantantes con técnica vocal muy entrenada, desarrollada, y apropiada, para tenerla como base en el modelo. El tipo de cantantes que brindan estas características son cantantes profesionales y semi-profesionales (estudiantes de canto lirico de últimos semestres). Los datos que se le darían al algoritmo como errores de la técnica vocal se grabaron de personas sin ningún tipo de conocimiento en canto y también de cantantes entrenados.

2.4.1 ¿Porque tiene sentido la grabación de errores no intencionados en este estudio?

Es claro que debe ser distinta la forma en la que ocurre un error intencionado y no intencionado, pero la naturaleza del sonido y la distribución de energía por armónicos en ambos casos en un estado estable debe ser muy similar por esta razón en la grabación de los errores se indicaba la forma en la que cada persona debía emitir el error basando dicha explicación en experiencias de maestros de canto de la universidad de los Andes y teoría de técnica vocal lírica, y luego se analizaba la distribución de energía en armónicos comparando la grabación en su estado estable con el estado transitorio , también llamado en el audio “attack”. Que es el ataque de una envolvente de sonido. Este tema se cubre de forma más profunda, más adelante en la extracción de características.

2.4.2 Tipos de sonidos grabados

En canto lirico existen hay 4 voces principales en orden ascendente de registro (rango de frecuencia que cierta voz puede emitir): Bajos (divididos entre Bajo y Barítono), Tenores (subdivisión: Tenor 1 y 2), Contraltos (Mujeres con capacidad de cantar sonidos por debajo de los 400Hz), y sopranos (Subdivisión: Mesosoprano, y Soprano). De las anteriores categorías se tomó datos de 9 sopranos, 5 tenores, 2 bajos, y 4 contraltos de los cuales 13 son semi-profesionales y 7 son maestros en canto lirico.

La metodología seguida para grabar las voces fue la siguiente:

� Se ubicaba al cantante a un poco más de un metro de distancia del micrófono para asegurar que lo grabado estuviese en el rango de respuesta plana del micrófono.

21

� Se le solicitaba hacer una escala mayor ascendente y retornar haciendo una escala mayor descendente en el registro que fuese más cómodo para él (ella), con intervalos de un segundo entre cada nota o sonido emitido de la escala para que la separación de los audios pudiera hacerse más cómodamente en el software (ver formas de los audio en Figura 10).

� Esta escala debía realizarse pronunciando la vocal “a” que es en general la más cómoda en el canto lirico. Y la vocal con mayor porcentaje de “sonido Sonoro”.

� Los sonidos de las escalas anteriores no podían sobrepasar el límite máximo de frecuencias de 2500Hz, valor que según la notación musical franco-Belga pertenece a un sonido producido en la pulsación de la tecla “Re# 6”, es decir “Re sostenido” de la sexta octava de un piano.

� Una escala completa comprendía 16 sonidos separados por silencios previamente mencionados: 8 sonidos de la semi-escala ascendente y los mismos 8 de la semi-escala descendente. Cada cantante realizo escalas completas emitiendo en cada una todos los sonidos con uno de los 4 tipos de error analizados o con una técnica vocal adecuada. De esta forma, por cada cantante, se obtenían 6 escalas o más, es decir un mínimo de 96 sonidos por cada tipo de error, los cuales a su vez se dividieron para aumentar el tamaño del conjunto de datos de entrenamiento como se verá más a fondo en el capítulo de entrenamiento del algoritmo inteligente.

A continuación se muestran imágenes de dos sesiones de toma de datos en cámara anecóica:

Figura 8. Sesión de grabación: Ingrid Delgadillo, Soprano profesional Universidad de los Andes.

22

Figura 9. Sesión de grabación: Paola Monroy, Soprano profesional Universidad de los Andes.

Las siguientes son representaciones graficas de sesiones de grabación en el software Protools M-Powered de Digi-Design:

Figura 10. Sesión de grabación desde Protools- M-Powered

23

Figura 11. Sesión de grabación desde Protools M-Powered

Como se puede apreciar en las figuras 10 y 11, en cada sesión de grabación se creaban 5 tracks distintos (canales horizontales), uno para cada error analizado, y uno extra para toma de datos de voz “con tecnica vocal adecuada”. De esta forma se podian grabar varias muestras de cada clase y de forma separada lo que facilitaba su edición e importación a otros software. En la figura 11, que es un zoom de la figura 10, de la primera escala grabada de cada error, se pueden apreciar los 16 audios los cuales, aumentan en amplitud a medida que la nota (frecuencia) de la escala es mayor, esto se debe a la tendencia que tienen los seres humanos de cantar con mayor volumen notas musicales altas y vicebersa.

25

Capítulo 3

Pre-procesamiento, análisis y extracción de características en los datos En el presente capítulo se harán explicitas todas las técnicas usadas en este estudio para extraer características de las grabaciones de voz. La mayoría son métodos matemáticos existentes aplicados en el tratamiento de la voz, excepto uno que es la aproximación del espectro en frecuencia del attack y sustain de las señales, a través de picos gaussianos sumados. Se recomienda estudiar el apéndice de este documento con el fin de relacionar la teoría que se cubrirá a continuación en este capítulo, con el código programado en Matlab para extraer las características numéricamente.

3.1. Segmentos analizados

Los audios analizados fueron cada una de las partes de las escalas hechas por los cantantes. La escala completa (16 sonidos de) quedaba registrada, a través de Protools M-Powered, en un archivo .WAV. Estos archivos eran importados desde el software “Nero Waveditor 8” en el cual se eliminaban los silencios, se cortaban y extraían los 16 audios por separado así:

Figura 12. Corte y extracción de cada sonido de la escala en “Nero Waveditor 8”

Una vez obtenidos los audios, cada uno se guardaba también como archivo .WAV, para que pudieran ser exportados y procesados en Matlab.

26

3.2. Software utilizado y sus características en el procesamiento

Todo el procesamiento de datos y extracción de características de los archivos de audio digital en formato WAV obtenidos en Protools M-Powered se hiso en Matlab, gracias a su herramienta de importación de archivos de este tipo: “Wavread”. Esta herramienta descomponía cada audio cortado previamente en un arreglo de amplitudes cuyo tamaño N cumplía la condición:

�� (1)

Donde � es la duración de la señal en segundos y � es el periodo de muestreo en segundos, que en este caso es igual al inverso de 44100 Hz, es decir 22.676 � seg. Como se puede apreciar en la expresión matemática, el tamaño N del arreglo de amplitudes

podía crecer notablemente si se aumentaba la frecuencia de muestreo ( � � �� ) lo que se

Convertiría en una limitante a futuro en cuanto a tiempo de p procesamiento se refiere.

3.3. Primeras Consideraciones tomadas en cuenta para obtener calidad en las grabaciones

En los procesos de grabación profesional siempre se lleva a cabo un filtraje posterior de las grabaciones para eliminar frecuencias no deseadas que están por debajo de 170 Hz causadas por vibraciones de los equipos de medida. En este caso aplico dicho proceso de filtraje lo cual no solo atenuó dichas frecuencias parasitas de los elementos de medición si no también ruidos entre 70 Hz y 86 Hz que estaban interviniendo y que provenían de motores que trabajaban en laboratorios de mecánica vecinos a la cámara anecóica. Por esta razón, antes de llevarse a cabo la extracción de características de cada uno de los audios, el filtro pasa-altas que debía aplicarse debía tener una respuesta en frecuencia lo más plana posible tanto en magnitud como en fase ya que un mal filtro podría llegar a cambiar la naturaleza de los datos, hacerlos ruidosos y complicar tremendamente la función de clasificación de los mismos. El diseño del filtro tubo las siguientes características:

- Filtro FIR Butterworth de grado 20. - Con un error en respuesta plana (en cero db) tanto en magnitud como en fase de

máximo �0.23 db, y una pendiente en zona de transición de 24db por década.Atenuación en banda de rechazo de -20db.

3.4 Métodos utilizados para la extracción de características

Las siguientes subsecciones hacen explicitas todas y cada una de las herramientas, transformadas y algoritmos aplicados a las grabaciones, usadas en la obtención de información

27

con la que se dio lugar al conjunto de datos de entrenamiento y prueba del algoritmo de clasificación. En la mayoría de casos, se hace una introducción teórica del funcionamiento del método y se aplica a uno de los audios para clarificar la forma en la que se extrajeron los datos de dicho método. En los casos en los que sea posible se procederá a establecer porcentajes de error y otro tipo de estadísticas que demuestren la eficacia de cada método.

3.4.1 Análisis en el dominio del tiempo

3.4.1.1 Componentes de la envolvente en tiempo

Los sonidos sonoros de la voz generalmente presentan una forma particular y envolvente en tiempo. Por supuesto los audios grabados en este estudio no fueron la excepción. En el tratamiento de audio y señales se identifican 4 partes de esta envolvente de la siguiente forma:

Figura 13. Partes de la envolvente del sonido en tiempo.

El número uno recibe como nombre “Attack”, el número dos “Release”, el número tres “sustain” y el 4to y ultimo “Decay”.

El “attack” es un periodo de tiempo pequeño en el que varias partes del tracto vocal experimentan cambios progresivos en forma y posición hasta alcanzar en cierto momento una estructura cómoda y estable que le permita seguir durante el “Sustain” imprimiendo energía al sonido producido por esa última configuración del tracto lograda en el attack. Durante ese proceso progresivo de cambio, se activan formantes frecuenciales, unas con más energía que otras, las cuales se dejan notar en la salida del sonido.

Esta característica aporta información muy valiosa a este estudio ya que sugiere la relación de energía de formantes producidos durante el attack con aquellos producidos en el “sustain” como fuente de extracción de características.

3.4.1.2 Primer Método: Transformada de Hilbert Esta es una de las herramientas más utilizadas en el análisis temporal de una señal para hallar el porcentaje de sonido Sonoro que hay dentro de ella a través de la obtención de la envolvente en

28

tiempo [27]. Esta transformada toma una señal �� muestreada con cierto periodo �, y devuelve una señal analítica � de la forma:

� � �� (2)

Es decir suma una parte imaginaria ��, que no es más que una versión de � desfasada 90� de la señal original. En otras palabras esta transformada aplicada a “cosenos” arrojaría “senos” y viceversa. La suma de esta señal �� tiene la intención de hacer de la señal original �� una señal analítica. Recordemos que las señales analíticas son aquellas cuyas componentes frecuenciales negativas han sido filtradas lo que hace más factible su descomposición y representación en términos de combinaciones lineales de muestras pasadas de la misma señal.

3.4.1.3 Relación de la transformada de Hilbert y partes de la envolvente y su aplicación al estudio

En este estudio se calcularon los valores máximos y mínimos de la dispersión de la transformada de Hilbert [27] manejando unidades correctamente para así hallar los tiempos de inicio y conclusión del segmento de la señal que tuvo mayor porcentaje de sonidos sonoros. Al graficar la identificación de estos dos instantes calculados, sobre varias grabaciones en tiempo se encontró lo siguiente:

Figura 14. Izq. Error de garganta, Der. Canto adecuado de una soprano, Ab. Canto adecuado de un bajo.

29

Las gráficas de estos tres casos presentaban una división casi perfecta de la señal en tiempo de su Attack y Sustain, lo cual de entrada se vio bastante curioso, ya que lo que se quería graficar era la ubicación temporal de la componente de voz sonora más representativa de la señal. De este análisis se obtuvo una herramienta muy valiosa para el resto del proceso de investigación: la obtención del attack y sustain de forma separada lo que facilitaba muchísimo la programación de un algoritmo que dividiera las señal en estos dos segmentos, tomara características de los mismos y las relacionara, todo esto de forma automática sin recurrir a manipulación manual de las señales, lo cual generaba un ahorro de tiempo considerable y hacia el algoritmo cada vez más robusto.

3.4.1.4. Aporte al vector de características del algoritmo de entrenamiento

Relación en segundos entre la duración del segmento de mayor contenido de sonido sonoro y la duración total de la señal.

30

3.4.2. Análisis en el dominio de la frecuencia

Esta fue la característica más explotada de todas ya que aporto la mayor cantidad de características al vector final de clasificación.

En primer lugar se procedió a graficar los espectros en el attack y sustain de varias grabaciones con el fin de visualizar posibles cambios o tendencias en el comportamiento de los armónicos y formantes. La siguiente grafica es un ejemplo de este proceso:

Figura 15. Espectro en frecuencia de una mujer cantando con voz de garganta. En rojo los formantes del Sustain y en verde los formantes del attack

La grafica de la figura 11 pertenece a una voz femenina emitiendo sonido con error de garganta. El espectro rojo pertenece al sustain, y el verde pertenece al attack. Se confirma que hay mucha más energía en el sustain que en el attack para cada armónico. Pero si nos fijamos, esta distribución de energía no tiene un patrón claro de comparación entre el attack y el sustain es decir la diferencia entre la altura y el ancho del formante (proporcional a la energía del mismo y a las frecuencias que lo acompañan) no es constante o comparable con cierto patrón a simple vista. Por ejemplo si concentramos nuestra atención en el armónico fundamental, es decir el que está ubicado alrededor de los 700Hz en el caso de la gráfica, se puede ver que la forma en la que se activan frecuencias vecinas alrededor es mayor y distinta a como se produce en el resto de formantes. Otro aspecto a notar es que la mayoría de formantes del attack (línea verde) no están centrados en la mitad de los formantes del sustain (línea roja), es decir es tan ligeramente desplazados.

Asimismo se podría llegar a decir que siempre la energía de las formantes es mayor en el sustain que en el attack pero el estudio realizado a otros tipos de error evidencio lo contrario, tal y como se ve en la siguiente grafica de espectro de la misma cantante, pero haciendo los errores de boca y garganta:

31

Figura 16. Espectro en frecuencia para el error de boca

Las dos graficas superiores pertenecen a error de boca y las dos inferiores a error de garganta. Las gráficas de la izquierda son la representación en frecuencia en el attack y las dos de la derecha en el sustain. En ambos errores se pueden apreciar diferencias bastante notables en la energía del mismo armónico en ambos periodos de tiempo analizados: casos en los que el formante se activa con cierta energía predominante, y de repente pierde más del 60 % de la misma durante el sustain donde la mayoría de formantes crecen en intensidad. Todos estos tipos de diferencias, cambios y comportamientos específicos en los formantes fueron el blanco en esta extracción de características en el dominio de la frecuencia.

3.4.2.1 Segundo Método: Aproximaciones de formantes a partir de sumas de picos gaussianos

Luego de evidenciarse cambios entre la energía de armónicos entre el sustain y el attack se implementaron aproximaciones de los formantes en ambos espectros, como suma de picos gaussianos. Es decir cada formante se aproximaba a través del modelo ‘Gauss8’ ofrecido en el “Fitting Toolbox” de Matlab que aproxima cada formante como suma de 8 picos (máximo valor ofrecido) gaussianos. La expresión que representa el modelo “Gauss8” es la siguiente:

�� = ∑ �� ∙ �� !"#$%&'(& )*+,� (3)

Donde ��, -� , y .� son los parámetros que arroja Matlab de cada uno de los 8 picos que se usaron para aproximar cada formante y como se verá más adelante fueron la base para la extracción de características en el dominio de la frecuencia. Cabe aclarar que se explotó la forma en la que los armónicos de la voz se repiten en múltiplos enteros de la frecuencia fundamental para

32

ubicarlos automáticamente en un espectro de voz y poder hacer la respectiva aproximación. Esto se hizo a través del método de detección de pitch con Cepstrum [29]. La siguiente es la gráfica de aproximación del espectro en frecuencia de un tenor cantando con técnica vocal adecuada:

Figura17. Aproximación gaussiana de una espectro en frecuencia

El eje horizontal esta en Hz y el vertical es amplitud normalizada. La Línea magenta es la representación real del espectro en frecuencia en el attack y la azul es su aproximación gaussiana. Es el mismo caso del sustain en la línea verde, que es la representación real, con su respectiva aproximación, la línea negra. Aparentemente en ciertos intervalos la aproximación es muy buena pero en otros no lo es tanto. La ventaja es que la aproximación es mucho mejor en los intervalos donde hay formantes que donde no los hay. La aproximación se hace calculando, el rango de frecuencias en el que se aplica la transformada de Fourier, la frecuencia fundamental o “pitch” (que es el intervalo frecuencial que hay entre cada armónico), y calculando intervalos entre puntos medios de la distancia entre cada formante, estos datos se le asignaron al modelo y este retorno la aproximación. .

3.4.2.1.1 Prueba de precisión del método

El parámetro que se tuvo en cuenta para medir la precisión de la aproximación a partir de picos gaussianos fue el error en la energía de cada formante en la representación artificial con respecto a la energía real. Recordemos que Matlab tiene varios modelos gaussianos Gauss1, Gauss2, etc., los cuales se diferencian únicamente en la cantidad de gaussianas sumadas que desea utilizar para hacer la aproximación. En este caso se utilizaron varios modelos con la idea de que podría llegarse a encontrar uno que presentara un error bajo de aproximación y que no tuviera tantas gaussianas para así reducir un poco el costo computacional pero en realidad el tiempo que tardaba el modelo en hacer la aproximación con el número máximo que ofrecía el

33

modelo, es decir “Gauss8”, no era grande, y si reducía mucho el error tal como se aprecia en las siguientes graficas:

Figura18. Error promedio de aproximación hasta el i-ésimo armónico o formante aplicando varios modelos de aproximación gaussiana en espectro de frecuencia de una voz masculina

Aplicando técnica vocal de forma adecuada.

Las gráficas anteriores representan el error promedio en la energía de cada aproximación hasta el i-ésimo armónico o formante aplicando varios modelos de aproximación gaussiana en espectro de frecuencia de una voz masculina emitiendo sonido con error nasal que fue el peor de los casos obtenido. La línea verde hace referencia al sustain y la magenta al attack. Finalmente como se supuso, el grado más alto de aproximación (8) presento el mejor error por lo que se decidió rescatar para este estudio. Cabe aclarar que la figura 12 tiene picos muy prolongados en los últimos armónicos, no porque el método sea muy malo o sea inestable, si no debido a que el modelo de aproximación seguía trabajando sobre zonas de la transformada de Fourier que son muy inestables y muy ruidosas donde por supuesto la labor de “fitting gaussiano” se complica muchísimo. Pero como se ve en la gráfica del centro a la derecha, en los armónicos tenidos en cuenta, el error en su energía estuvo alrededor del 4.5%.

34

3.4.2.1.2 Aporte al vector de características del clasificador

Matlab al hacer la aproximación arrojaba 3 coeficientes por cada una de las 8 gaussianas que había utilizado para la aproximación de un solo armónico, estos coeficientes eran 3: ��(amplitud de la gaussiana proporcional a la energía del formante), .� (apertura de la gaussiana: proporcional al rango de frecuencias vecinas del formante), y -� (la media o frecuencia central del formante). En el caso de las medias se calculó el promedio de las 8 del attack, se restó con el promedio de las ocho del sustain (del mismo formante) y se tomó valor absoluto de dicha diferencia, como una medida de desfase del formante durante esos dos periodos. En el caso de las aperturas de las gaussianas, se calcularon las desviaciones estándar de las 8 del attack y de las 8 del sustain y se hiso la división, al igual que con las amplitudes pero de nuevo calculando el promedio entre ellas. Es decir por cada audio teniendo en cuenta que se tomaban los 20 formantes más representativos del espectro, se obtenía una colección de 60 características para el vector de clasificación.

3.4.3. Tercer Método: LPC (Linear Predictive Coding)

3.4.3.1 Teórica básica del método LPC o Codificación por Predicción Lineal como su propio nombre lo indica es un método de predicción utilizado en el tratamiento de la voz más específicamente en síntesis y compresión de esta particular señal. Este método se basa en las siguientes suposiciones:

-El proceso de producción de la voz en el aparato fonatorio se lleva a cabo a través de la unión de dos funciones importantes: La función de una fuente productora de una señal original (aire pasando por la glotis y cuerdas bucales) y la función de un sistema deformador de dicha señal (tracto vocal).

- Se asume siempre que la señal de la voz es la salida de un sistema lineal e invariante en el tiempo, es decir que se puede hallar una representación de la misma convolucionando la respuesta impulso y la entrada al sistema

LPC analiza la señal de la voz estimando frecuencias formantes, removiendo sus efectos de la señal y estimando la intensidad y frecuencia de la señal original producida en la glotis. Este proceso inverso de remover formantes se llama “filtrado inverso”, y las partes sobrantes de

35

señal son llamadas residuos las cuales comúnmente se guardan, junto con las formantes para lograr el proceso inverso (síntesis de la voz): Se usan los residuos para crear una señal fuente, y asimismo las formantes para crear un filtro (que caracteriza el tracto vocal). Esta señal interactúa con el filtro dando lugar a una representación de la señal de la voz. Debido a que la voz es una señal no estacionaria y varia con el tiempo este proceso se realiza por partes a través de una segmentación de la señal de 30 a 50 cuadros por segundo.

3.4.3.2 Caracterización del método Teniendo una señal muestreada S[n], se estima la k-èsima muestra de la señal, �̂ utilizando una combinación lineal de “0” muestras anteriores a la que se está calculando de la siguiente manera:

�̂ � ∑ �12� �34 5 67 (4)

De esta forma se puede hablar de una expresión del error de predicción de la siguiente forma:

�347 � �347 5 �̂347 � �347 5 ∑ �12� �34 5 67 (5)

Si obtenemos la transformada Z de la señal discreta de error obtenemos la siguiente expresión:

8"9' � :"9' 5 ∑ �12� :"9'9 1 (6)

Y factorizando el término :"9', obtenemos:

8"9' � :"9' 5 ;1 5 ∑ �12� 9 1= (7)

Que da lugar a una expresión característica de un sistema discreto de entrada, salida y función de transferencia característica:

8"9' � :"9'>"9' (8)

;1 5 ∑ �12� 9 1= � >"9' (9)

Donde la función de transferencia >"9' representa un filtro todo-cero donde los coeficientes �1, corresponden a ceros en el plano z del filtro. El número “0” hace referencia al orden del filtro y por esta razón entre más grande sea este entero mayor será el poder de predicción de este método. Comúnmente, en análisis de “speech” este número se toma con 10 o 20 ya que de esta forma se asegura un balance adecuado entre tiempo computacional y calidad de predicción.

36

Es importante recalcar la importancia que tiene la ubicación de los coeficientes adentro del círculo unitario centrado en el origen del plano z, para asegurar estabilidad del sistema y mejorar el nivel de error de predicción.

3.4.3.3 Posibles debilidades del método LPC se usa frecuentemente en la transmisión de características de envolvente espectral. Por esta razón un sistema que implemente este método debe ser muy robusto en cuanto a transmisión se refiere. Ya que como previamente se analizó, LPC calcula coeficientes �6 que caracterizan la función de transferencia, la transmisión directa de estos coeficientes no es conveniente ya que este proceso los hace muy sensitivos a errores, estos errores pueden distorsionar por completo el espectro o peor aún hacer muy inestable el filtro de predicción.

3.4.3.4 Importancia Histórica del método Aunque este método ha venido siendo reemplazado por otros más avanzados en el área de procesamiento del discurso humano como LAR (log Area Ratios), o LSP (line Spectrum Pairs) es una excelente herramienta para caracterizar el porcentaje de sonido sonoro (voiced Sound) que hay en grabaciones del habla a través de características en magnitud y fase del filtro, sin caer en limitantes considerables de proceso computacional.

3.4.3.5 Lectura del método para la extracción de características La sección de LPC que brinda más información de los sonidos sonoros es la función de transferencia evaluada en frecuencias formantes encontradas, que caracterizan al filtro tanto en magnitud como en fase. -Otra forma de obtener información es en la energía de las frecuencias formantes con respecto la frecuencia fundamental o pitch. - Por último el error de predicción del filtro, más específicamente el espectro de los residuos, es una de las principales fuentes de información de este método. Si la desviación estándar de las amplitudes del espectro de residuo es pequeña quiere decir que gran cantidad de componentes del segmento de habla son sonidos sonoros, pero si por el contrario esta cantidad es grande quiere decir que la mayoría de sonidos presentes son sonidos sordos.

37

3.4.3.6. Aplicación a una grabación, como ejemplo, y prueba de precisión del método

Luego de haber cubierto las principales características de este método, cuyo objetivo principal es simular el tracto vocal como una función de transferencia, se hará explícito a continuación un ejemplo de los resultados de procesamiento LPC en una de las grabaciones, pertenecientes a una voz emitiendo sonido con error de lengua.

Se importó la señal al workspace de Matlab donde se aplicó el algoritmo LPC de predicción (cuyo código esta en los anexos), este arrojo los coeficientes �1 que minimizan el error de predicción y son los coeficientes del denominador de la función de transferencia que caracterizan el tracto vocal de la persona grabada en el archivo. Se hallaron las raíces de dicho polinomio que son los polos de esa función de transferencia. Los polos que estaban contenidos en el círculo unitario en el plano Z y que hacen estable al filtro se grafican a continuación:

Figura 19. Polos de la función de transferencia de un filtro predictor luego de aplicarse el algoritmo LPC.

Estos polos son las frecuencias formantes que se están activando durante la fonación de esta persona. Es por esto que es importante graficar la distribución espectral de potencia y la magnitud de la función de transferencia en estas frecuencias:

38

Figura 20. Función de transferencia LPC alrededor de formantes

Figura 21. PSD alrededor de formantes

Por lo que se puede observar, al igual que en la función de transferencia, las formantes, indicadas mediante líneas punteadas, aparecen como mínimos y máximos locales con distribuciones de energía inestables en las frecuencias formantes bajas y un poco más estable en las altas. Por supuesto estas dinámicas de energía alrededor de las frecuencias formantes se tuvieron en cuenta en la extracción de características de este método.

39

Por último es conveniente graficar el error de predicción junto con la señal reconstruida para tener un índice de la calidad del filtro que se construyó para la caracterización de dicha voz:

Figura 22. Señal reconstruida luego de aplicar un filtro de orden 10 y hacer la predicción a través del método LPC.

Figura 23. Señal original y señal reconstruida luego de aplicar un filtro de orden 10 y hacer la predicción a través del método LPC.

40

Las dos figuras anteriores demuestran la buena predicción que se obtuvo con LPC: La figura 22 muestra es la diferencia o resta entre la señal original y su predicción hecha con LPC cuyo máximo no sobrepasa las 0.018 unidades, y está en la misma escala de amplitud de la figura 23. Es necesario aclarar que en la figura 23 aparecen la señal reconstruida y la original las cuales están desfasadas en una unidad para poder observarlas. Los visos rojos son partes de la señal reconstruida sobre la cual esta superpuesta la gráfica de la señal original. Esto da una idea de lo precisa que es esta herramienta en la caracterización de la voz cantada que es exactamente la que se está analizando.

3.4.3.7. Aporte al vector de características del clasificador

-La ganancia en frecuencias formantes del filtro de aproximación y el nivel de desfase en esas mismas frecuencias.

-El error promedio de predicción de la señal.

41

3.4.4. Cuarto Método: CEPSTRUM

Esta es una de las transformadas más usadas en el procesamiento y obtención de información de la señal de voz de una persona. La palabra “Cepstrum”, viene de la palabra “Spectrum” o “espectro” (descomposición de una señal ondulatoria en el dominio frecuencial). Se hace este intercambio de letras en las primeras silabas debido a las características de este método de empezar caracterizando con una función, en el dominio del tiempo, el sistema de producción de la voz, pasar al dominio frecuencial aplicar ciertas propiedades matemáticas y volver al dominio del tiempo pero obteniendo distintos valores en los ejes de representación.

Al igual que LPC, este método tiene la noción de separar la señal de excitación o señal original fuente (donde se encuentra información del tono y segmentación de palabras), de la función de transferencia (que caracteriza el tracto vocal de la persona), y de considerar el habla como la salida de un sistema LTI. Para considerar este método se debe tener presente que se debe incurrir en la aplicación del proceso de de-convolución.

Como se analizó previamente, en el habla humana se identifican dos tipos de sonidos: Los “sonoros” y los “sordos” (voiced and Unvoiced Sounds). Los primeros hacen referencia a sonidos en los que el tracto vocal no imprime mayor resistencia mientras que en los segundos, agentes como la boca, la cavidad nasal, los labios, entre otros, ayudan a que se deformen considerablemente.

3.4.4.1 Caracterización del Método:

La forma matemática utilizada por el Cepstrum para caracterizar la separación del habla en dos partes separables para su análisis como sistema es la siguiente:

?"@' � A B"C'D"@ 5 C'EC2� (10)

Donde h(t) representa la respuesta impulso del sistema (tracto vocal) , g(t) la señal producida por la glotis, y x(t) el habla como tal o la señal a la salida del sistema.

El sistema anterior es una convolución en tiempo entre ?"@'y B"@', es decir que en frecuencia puede expresarse como una multiplicación de estas dos así:

�"F' � G"F'�"F' (11)

Si se aplica valor absoluto, y posteriormente logaritmo a ambos lados de la ecuación para separar las dos partes obtenemos lo siguiente:

42

HIB|�"F'| � HIB|G"F'| � HIB|�"F'| (12)

Por ultimo aplicando transformada de Fourier a ambos lados de la ecuación se obtiene una expresión bastante interesante:

K � HIB|�"F'| � K � HIB|G"F'| � K � HIB|�"F'| (13)

El eje horizontal es llamado “quefrency” y también está en unidades de tiempo.

3.4.4.2 Lectura del método para extracción de características

-Las contribuciones al Cepstrum producidas por excitaciones periódicas ocurren en múltiplos enteros del periodo fundamental.

- Luego de obtener el Cepstrum de una señal, uno de los procedimientos más utilizados para extraer información de sonidos sonoros en el segmento de habla que se esté analizando, es el de análisis de periodicidad y densidad de energía en picos de este espectro que vayan apareciendo en las ventanas o cuadros de análisis de la señal.

Para la extracción de información de sonidos sordos, se hace un análisis de las pendientes prolongadas que aparecen al comienzo de la gráfica Cepstrum de una señal de habla.

3.4.4.3 Aporte al vector de características del clasificador

-Relaciones entre los picos del attack y el sustain, generados en cada ventana de análisis de 5ms.

-El promedio de las pendientes al inicio de cada representación Cepstrum del attack únicamente, de cada audio.

43

3.4.4.4 Aplicación del método a una grabación como ejemplo

Luego de importar la señal a Matlab se aplicó el algoritmo Cepstrum en varias ventanas de 5ms en las cuales se pueden apreciar las formantes que van apareciendo caracterizando los fragmentos de sonido sonoro en la señal, y los fragmentos de sonidos sordos caracterizados por la pendiente inicial que aparece en cada ventana. Las siguientes son algunas ventanas de análisis del Cepstrum aplicando a una voz masculina emitiendo sonido con error de apertura pequeña y constante de boca:

Figura 24. Ventana Cepstrum 1


44



El registro de cambios significativos en cada ventana se va realizando de tal forma que la información detallada describa lo mejor posible el contenido de la señal.

45

3.4.5 Análisis en Tiempo-Frecuencia

3.4.5.1 Distribuciones de energía

Estas son sin duda de las herramientas más utilizadas en el análisis de señales no estacionarias tal como lo es la voz humana. Básicamente son herramientas útiles para saber en qué instantes de tiempo están apareciendo las frecuencias de una señal y con qué energía lo están haciendo.

El objetivo de esta herramienta es distribuir la energía de la señal sobre las dos variables descriptivas: Tiempo y frecuencia.

Como la energía de una señal ? se puede obtener a parte de la magnitud al cuadrado de la propia señal y o de su transformada de Fourier

8L � A |?"@'|MNO O E@ � A |�"P'|MNO

O EP (14)

|?"@'|M y |�"P'|M se pueden interpretar como densidades de energía. Por lo tanto se puede hablar de una densidad de energía conjunta en tiempo y frecuencia QL"@, P' de la siguiente forma:

8L � A A QL"@, P'NO O

NO O E@ EP (15)

Debido a que la energía es una función cuadrática, las distribuciones de tiempo frecuencia serán en general representaciones cuadráticas.

Las siguientes dos propiedades marginales deben ser cumplidas también por una densidad de energía:

A QL"@, P'NO O E@ � |�"P'|M (16)

A QL"@, P'NO O EP � |?"@'|M (17)

En otras palabras, esto quiere decir que si se integra la densidad de energía en tiempo-frecuencia a lo largo de una variable, obtenemos la densidad de energía correspondiente a la otra variable. [13], [14], [15], [16], [17].

3.4.5.2. Quinto Método: Distribuciones de Tiempo-Frecuencia de Wigner Ville y Espectrograma

Estas distribuciones hacen parte de la clase de distribuciones de Cohen, las cuales satisfacen las condiciones (15) y (16) y tienen algunas restricciones adicionales sobre QL en las cuales los principios de covarianza son de mucha importancia, tal y como se hace explícito en la referencias “Covariant by translations in time and in frecuency” [14]. Una distribución de tiempo-frecuencia de Wigner Ville se define como:

46

RL"@, P' � A ?"@ � C/2'NO O ?∗ V@ 5 W

MX � YMZ[WEC (18)

Que es equivalente a:

RL"@, P' � A �"P � \/2'NO O �∗ VP 5 ]

MX � YMZ]^E\ (19)

Estas distribuciones satisfacen una gran cantidad de propiedades matemáticas convenientes [18]. En particular las distribuciones de Wigner Ville trabajan solo con valores reales, conservan desplazamientos en tiempo y frecuencia además de que satisfacen las propiedades marginales (16) y (17). El espectrograma hace parte de la clase de distribuciones de Cohen ya que es cuadrática, es covariante con tiempo y frecuencia y conserva la energía (ecuación (15)). Sin embrago, tomar el cuadrado de la magnitud de una “descomposición atómica”, que es la clase de distribución de este método, es una característica restrictiva para hacer una representación cuadrática, ya que esta definición presenta el inconveniente de que las propiedades marginales (16) y (17) no se satisfacen. La teoría básica consultada de este método se extrajo de la siguiente referencia [17].

3.4.5.3. Utilidad al proyecto y aporte al vector de características

En este caso se utilizó le herramienta “spectrogram” de Matlab la cual retorna una matriz T: tiempo, otra f: frecuencia, una tercera S, con la información de energía. Teniendo esta información se aplicó la técnica “Filterbank” [20], comúnmente usada en la extracción de características del discurso humano e identificación de voces. Se utilizó para crear una especie de bancos de energía promedio en el ancho de banda más usado para cada error y en cada grabación. Básicamente se calculó el promedio de energía por grupos de 10 frecuencias vecinas (10 columnas para no hacer tan pesado el costo computacional) y así luego calcular la dispersión de energía en cada uno de estos grupos:

Figura 28. Espectrograma de error de lengua masculino en F-T

47

Figura 29. Espectrograma de error de lengua masculino en 3D

Cabe aclarar que en las anteriores graficas el eje de tiempo no está siendo en segundos si no en muestras de la señal siendo consistente con la relación (1). En el caso de las distribuciones de Wigner Ville se tomaron puntos medios entre picos sucesivos de la distribución en el attack y sustain de la señal (en la banda de frecuencias de mayor impacto) y así se hizo un promedio de las magnitudes de los gradientes que arrojaba Matlab en estos intervalos, con el fin de hacer un cálculo de desviación estándar de estas magnitudes y relacionarlas.

49

Capítulo 4

Entrenamiento del algoritmo Clasificador

Este capítulo hace explicito todo el proceso de entrenamiento de los algoritmos tomados en cuenta para este estudio. Primero se darán unas bases teóricas de la forma en la que se tratan los problemas de clasificación en este tipo de algoritmo, luego se darán especificaciones de las dimensiones de los datos y otras decisiones tomadas sobre los mismos para tratar de llevar el porcentaje de error de clasificación a un nivel bajo. Por último se hacen explícitos los mejores resultados obtenidos en los entrenamientos más representativos de los algoritmos con los datos.

4.1. Teoría básica de algoritmos de clasificación

En todos los algoritmos de clasificación se debe tener siempre claro el número y el tipo de clases en las que se quiere separar los datos, la mayoría de problemas solo presentan división binaria es decir casos en los que el clasificador debe decir si el dato pertenece a una de solo dos clases. Pero existen problemas de mayor complejidad en los que el algoritmo debe decidir si el dato pertenece a una de más de 2 clases como en este caso, ya que se trabajara con cinco clases.

Los datos de entrada al algoritmo son vectores de cierta dimensión. Esta dimensión viene dada por la cantidad de características que se ha decidido explotar del fenómeno que se está estudiando. En este estudio, la dimensión de los datos estará dada por todas las técnicas de procesamiento de señal de voz cantada cubiertas en el capítulo 3. Cada técnica puede aportar una o más dimensiones a cada vector. Es por esto que en una de las subsecciones de este capítulo se hace explicito el vector de características para saber la dimensión del mismo y que componentes pertenecen a cada técnica vista en el capítulo anterior.

Luego de tener los datos etiquetados, y convertidos en vectores, se toman datos al azar para formar dos grupos: El conjunto de datos de entrenamiento y El conjunto de datos de prueba. El primer conjunto está destinado para sea utilizado por el algoritmo, y este pueda proponer un clasificador en la dimensión de los datos, mientras que el segundo está destinado para validar o calcular el error de clasificación ofrecido por ese clasificador.

Dependiendo del algoritmo que se esté aplicando, se usan métodos avanzados de optimización distintos sobre los datos de prueba para entrenarse, es de decir para sugerir un modelo de que va cambiando hasta encontrar uno que minimiza el error de clasificación, aquí es donde finalmente

50

propone un clasificador en la dimensión de los datos. Por ejemplo en el caso de dos dimensiones el clasificador puede ser una recta, una parábola, una hipérbole mientras que para tres dimensiones puede ser un plano y para más dimensiones un hiperplano, dependiendo de la ubicación de los datos en la dimensión de los mismos y de que tan complicado sea separarlos.

Los siguientes son ejemplos de dos algoritmos distintos de clasificación aplicados a dos conjuntos de datos generados artificialmente con Matlab, los cuales siguen distribuciones gaussianas distintas:

Figura 30. Red neuronal de una capa y una neurona separando dos conjuntos de datos generados en Matlab, los cuales siguen distribuciones gaussianas distintas.

Figura 31. Clasificador cuadrático óptimo de Bayes separando dos conjuntos de datos generados en Matlab, los cuales siguen distribuciones gaussianas distintas.

51

Como se puede apreciar, en el primer caso la clasificación de bastante buena y relativamente fácil para cualquier algoritmo clasificador aparentemente debido a que el vector de medias de la distribución de datos rojos como de azules son están bastaste alejados entre sí (medias_azul= [0.30746, 0.490829], medias_rojo= [3.36934, 2.141]). En el segundo caso debido a que las medias de las dos distribución no están tan alejadas entre sí (medias_azul = [0.324776, 0.469763], medias_rojo = [1.48357, 1.95307]) , la clasificación se torna un poco más complicada y es por esto que el clasificador propuesto por el algoritmo es cuadrático.

4.2. Vector de características y división de los datos En este estudio la dimensión de los datos es mucho mayor que en el ejemplo por esta razón no se puedo graficar los clasificadores y se aplicaron otros métodos que utilizan algoritmos más poderosos de optimización en el auto-entrenamiento.Un dato en este estudio será un vector de características obtenido del procesamiento a un audio extraído de cada escala cantada por los cantantes, tal y como se vio en el capítulo 2. Luego de recolectar los datos con todas las herramientas de análisis se obtuvo un conjunto de 6012 datos, de lo cuales 5000 se destinaron para entrenamiento y 1012 para prueba. El vector de características es decir la forma de cada dato de entrada al algoritmo quedo de la siguiente forma:

Figura 32. Vector de características resultante de cada audio.

Aunque esta fue la estructura de los datos originalmente, como se verá más adelante, se cambió para mejorar el error

.

4.3. Primer clasificador implementado

El primer clasificador implementado fue un “Estimador de mínima distancia”[9], aplicando matrices de covarianza media sobre todas las clases, hallando las distancias mínimas de Mahalanobis[9] de cada clase para cada vector de características y por ultimo hallando la matriz de confusión.

52

4.3.1. Metodología aplicada en el primer clasificador

La etiquetación de cada uno de los datos (vector de características) para la identificación de los mismos por parte del algoritmo entrenador, se realizó de la siguiente forma:

Clase Etiqueta Técnica Adecuada 1

Error de apertura de boca 2 Error lengua 3 Canto Nasal 4

Canto Garganta 5Tabla 1. Etiquetado de cada vector de características

4.3.2. Inconvenientes en número de datos y erroresDebido a que en un comienzo los porcentajes de precisión de clasificación correcta (probabilidad de que se tome cualquier dato al azar y se clasifique adecuadamente por el algoritmo clasificador) eran bastante pequeños, del orden de 0.25%, se decidió ampliar el conjunto de datos de prueba y entrenamiento así: Aplicar un algoritmo que dividiera el segmento de cada audio entre el attack y el sustain en dos segmentos iguales. Es decir, se obtuvo un conjunto de datos casi duplicado (11946 datos).

Como estos datos necesitaban de la información del attack de la grabación a la que pertenecían para realizar el procesamiento completo especificado anteriormente, simplemente se mantendrían igual para los dos, ya que en cierta forma son datos que provienen del mismo cantante o de la misma fuente de distribución de información.

4.3.3. Resultados en el conjunto de datos de pruebaLuego de aumentar considerablemente el tamaño del conjunto de datos, el número de épocas (pasadas sobre los datos), y los límites de error de los ciclos condicionales programados para los cuales el algoritmo podía parar de trabajar, se obtuvo los siguientes porcentajes de error:

53

Tabla 2. Resultados de clasificación

Como se puede apreciar, el mejor porcentaje de clasificación obtenido sobre los datos de prueba fue de 0.675%, lo cual fue bastante malo pero no significo una limitante para el siguiente clasificador basado en SVM, como se verá a continuación.

4.4. Entrenamiento de una máquina de soporte vectorial como segundo clasificador

Se utilizó el algoritmo de clasificación multiclase “uno contra todos” [8][21] de SVM [22][23] [24], variando el número de validaciones cruzadas y otros parámetros importantes dependiendo del entrenamiento que se llevara a cabo. La etiquetación de cada dato en este caso se hacía de la siguiente forma:

Tabla 3. Etiquetación de cada vector de características para entrenar con el algoritmo “uno contra todos” de SVM.

Dato con error de: Etiqueta Técnica Adecuada 1 -1 -1 -1 -1 Apertura de boca -1 1 -1 -1 -1

Lengua -1 -1 1 -1 -1 Canto Nasal -1 -1 -1 1 -1

Canto Garganta -1 -1 -1 -1 1

54

Luego de llevar a cabo esta etiquetación sobre todos los datos manteniendo el conjunto de datos casi duplicado como se hizo con el anterior clasificador, se procedió a hacer los respectivos entrenamientos.

4.4.1. Metodologías y sus resultados En la clasificación con SVM se utilizó el algoritmo Multiclase [25] ya implementado en la librería de libre acceso de objetos para SVM de Matlab: “The Spider” [26].

4.4.1.1. Primer entrenamiento En esta modalidad se tomó el 80% de datos para entrenamiento y el 20% restante como datos de prueba, e mantuvo. La siguiente tabla hace explícitos los resultados obtenidos y los parámetros tenidos en cuenta en cada entrenamiento (cabe aclarar que cada casilla del error total obtenido es hace referencia al error en el conjunto de datos de entrenamiento y se obtenía haciendo el promedio sobre los resultados de las validaciones cruzadas):

Parámetro 1train

2 train 3 train 4 train

# Validaciones cruzadas

15 19 16 19

C 1000 500 100 10 Kernel Poly Poly Gau Poly

%Error de clasificación

78.50 66.53 70.46 61.40

Tabla 4. Resultados obtenidos aplicando SVM- multiclass

Parámetro 5train

6 train 7 train 8 train


19 18 18 19

C 5 1 0,5 0.1 Kernel Poly Poly Gau Poly


57.77 57.53 58.25 58.02

Tabla 4. Resultados obtenidos aplicando SVM- multiclass

Donde “C” es la constante de penalización del error del algoritmo de clasificación en el caso no separable de SVM. “Poly” y “Gau” hacen referencia a los kernels polinomial y gaussiano utilizados en la clasificación por SMV.

Notablemente el nivel de predicción fue bastante malo en esta ronda de entrenamientos por tal razón antes que incurrir en tiempos grandes de procesamiento de las grabaciones para generar más datos, se decidió hacer subdivisiones del conjunto de características.

55

4.4.1.2. Segundo entrenamiento Teniendo en cuenta que la aproximación de gaussianas aunque había arrojado un error promedio de alrededor del 4.5% en la energía de cada aproximación de formantes, se sabía que era el método más arriesgado, menos conocido y que podía introducir mayor cantidad de ruido porque cada coeficiente que arrojaba el modelo de Matlab y era tomado en cuenta, aportaba 20 características al problema. Por esta razón se decidió volver a entrenar teniendo en cuenta solo algunas características de ese método. El resto de características aportadas por el resto de métodos se mantuvieron igual. Debido a que suprimir un coeficiente de la aproximación gaussiana significaba tener 20 características se fijó un número más alto de validaciones cruzadas.

Luego de múltiples entrenamientos las características más importantes obtenidas ajustando el resto de parámetros, fueron las siguientes:

Parámetro Solo a Solo b Solo c a y b # Validaciones cruzadas

24 24 24 24

C 0.5 0.5 0,5 0.5 Kernel Poly Poly Poly Poly


87.8 27.88 24.29 38.09

Tabla 5. Resultados de entrenamiento suprimiendo algunas características

Parámetro a y c (1/2)b y c

(1/2)a y b

(1/2)c y a


24 24 24 24

C 0.5 0.1 0.1 0.1 Kernel Poly Poly Poly Poly


36.41 17.47 27.07 33.57


De esta forma se notó la existencia de datos ruidosos en las características aportados por el coeficiente “a”, y un poco de c.

De esta forma el error más bajo en el conjunto de entrenamientos realizados, se halló con SVM’s teniendo en cuenta todas las características menos las aportadas por el coeficiente “a” de aproximaciones gaussianas y la mitad de características aportadas por el vector b. Este error fue de 17.47%.

58

Capítulo 5

Conclusiones y trabajo a futuro

5.1. Conclusiones

• La aproximación de formantes con suma de picos gaussianos es una buena herramienta si se tiene un algoritmo eficiente que le entregue al modelo, intervalos en el dominio de la frecuencia donde la aproximación ofrezca información relevante sin desperdiciar procesamiento computacional en aproximaciones de segmentos con poca información.

• Se seguirán haciendo pruebas de clasificación a los datos obtenidos con métodos de Machine Learning tales como SVM y Adaboost, con el fin de mejorar el error de clasificación.

• La dispersión en la transformada de Hilbert de una señal de voz puede utilizarse para separar correctamente el attack y el sustain.

• Es muy importante hacer un seguimiento minucioso de los datos que no están siendo buenos para la clasificación es decir aquellos que datos ruidosos que tal vez por mal etiquetación o mal implementación del método de medición en cierta forma confunden las predicciones del algoritmo.

• La información extraída de las señales en este estudio se convirtió en un conjunto de características bastante poderosas agrupándolas de la forma en la que se hace explicita en el proceso de clasificación.

• Se logró clasificar entre los 4 errores de la técnica vocal y la técnica vocal adecuada, con un error del 17.47%

• Es probable que se pueda mejorar el error de clasificación aplicando un algoritmo de extracción de características avanzado y más eficiente, que el aplicado en este caso, que defina que combinación entre las características halladas, ofrece mejor clasificación.

• La característica más ruidosa para la clasificación, generada en este estudio, corresponde al coeficiente “a” de la aproximación gaussiana hecha con el modelo de aproximación “gauss8” de Matlab.

59

5.2. Trabajo a futuro • Aplicar otros algoritmos inteligentes más robustos en cuanto a vulnerabilidad de ruido

de los datos tales como basados en arboles de decisión tal como “Random Forest”. • Implementar algoritmos que predigan la combinación de características obtenidas en

este estudio que mejoran la clasificación de los 5 aspectos mencionados de la técnica vocal.

• Crear nuevas clases, como combinación de las ya obtenidas en este estudio, y de esta forma poder predecir cuándo se está incurriendo en dos o más errores. Ejm:


Error Etiquetas

Lengua y boca -1 1 1 -1 -1 Adecuada y nasal 1 -1 -1 1 -1

60

Bibliografía

[1] Foote, J.. A similarity measure for automatic audio classification. Technical report, Institute of Systems Science, National University of Singapure. 1997

[2]“Synthesis of the Singing Voice Using a Physically parameterize model of the human vocal tract”. Center for computer research in music and Acoustics (CCRMA), Stanford University. 1989.

[3]“DETERMINATION OF VOCAL-TRACT SHAPES FROM FORMANT FREQUENCIES BASED ON PERTURBATION THEORY AND INTERPOLATION METHOD”. Dept. of Electronic Engineering The Chinese University of Hong Kong Shatin, Hong Kong.

[4] Imagen de modelo de funcionamiento de un tracto vocal humano tomado de la página web: http://cobweb.ecn.purdue.edu/~ee649/notes/figures/vocal_schematic.gif, Visitada el 09/07/2010.

[5]. “Linear Prediction of Speech”, Springer-Verlag: Berlin., Markel, J.D. y A.H. Gray, Jr, 1976.

[7] “Time frequency Matlab Toolbox”, CNRS (France),Rice University (USA),François Auger ,Patrick Flandrin ,Paulo Gonçalvès , Olivier Lemoine ,1995-1996.

[8]��One-Against-All Multi-Class SVM Classification Using Reliability Measures”,�Department of Electrical and Computer Engineering, The Ohio State University Columbus, Ohio 43210, Yi Liu and Yuan F. Zheng.

[9]Paginaweb:http://www2.uca.es/dept/leng_sist_informaticos/preal/Aprendizaje/tema2aIntroRecPatrones_archivos/frame.htm,visitada el 15/04/2010.

[10]Pagina web: http://la.m-audio.com/products/es_la/FastTrackPro.html, visitada el 15/07/2010.

61

[11]Paginawebhttp://la.maudio.com/products/es_la/ActualizaciondeProToolsMPowered74.html, visitada el 4/02/2010.

[12] PONER REFERENCIA DEL TEOREMA DE SHANNON NYQUIST DEL LIBRO DE SEÑALES

[13] F. Auger. Representations temps-frequence des signaux nonstationnaires: synthese et contributions. PhD thesis, Ecole Centrale de Nantes, France, 1991.

[14] L. Cohen. Time-Frequency Distributions - A Review. Proceedings of the IEEE, 77(7):941 980, 1989.

[15] P. Flandrin. Temps-fr´equence. Herm`es, 1993. Trait des Nouvelles,Technologies, srie Traitement du Signal.

[16] F. Hlawatsch. Time-frequency methods for signal processing. In Technical Report 1291 0001, Dept of Electrical Engineering, Universityof Rhode Island, 1991.

[17] F. Hlawatsch and F. Boudreaux-Bartels. Linear and Quadratic Time-Frequency Signal Representations. IEEE SP Magazine, pages 21–67, 1992.

[18] “Time frequency Matlab Toolbox”, CNRS (France),Rice University (USA),François Auger ,Patrick Flandrin ,Paulo Gonçalvès, Section 3.4.1 “The Spectrogram” , Olivier Lemoine ,1995-1996.

[19] “Time frequency Matlab Toolbox”, CNRS (France), Rice University (USA), François Auger, Patrick Flandrin, Paulo Gonçalvès, Section 4.1.1 “The Wigner Ville Distribution, Properties”, Olivier Lemoine, 1995-1996.

[20] “Feature Extraction from Speech”, Llehrstuhl Sprachsignal Verarbeitung, Presentación de libre lectura, pagina web http://www.lsv.uni-saarland.de/dsp_ss05_chap9.pdf.

[21] “One Against One” or “One Against All”: Which One is Better for HandwritingRecognition with SVMs?, École de Technologie Supérieure, Montréal, Canada, Jonathan Milgram, Mohamed Cheriet, Robert Sabourin

[22] ”A Tutorial on Support Vector Machines for Pattern Recognition”, Bell Laboratories, Lucent Technologies, CHRISTOPHER J.C. BURGES, 1998.

[23] Presentaciones de la clase “Support Vector Machine” de la asignatura de maestría “Machine Learning”, de la Universidad de los Andes dictadas por el profesor Fernando Lozano. 2010.

[24] “Learning with Kernels”,�The MIT Press Cambridge, Massachusetts London, England, Bernhard Scholkopf y Alexander J. Smola, 2001/03/02.

[25] Pagina Web: http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html, visitada el 09/05/2010, Sección: Demos /Multiclass.

62

[26] Página web: http://www.kyb.tuebingen.mpg.de/bs/people/spider/main.html, visitada el 09/05/2010.

[27] Página Web: http://www.ee.imperial.ac.uk/hp/staff/dmb/voicebox/voicebox.html, visitada el 16/04/2010.

[28] ” Separación de Voz Cantada”, Instituto de Ingeniería Eléctrica, Facultad de Ingeniería, Universidad de la República Oriental del Uruguay, Andrés Samas, Alessandro Palermo Ariel Decarlini, Sub-sección “4.3. Extracción de la envolvente”, 2008.

[29] Performance Evaluation of Pitch Detection Algorithms, České vysoké učení technické v Praze, FEL , E. Verteletskaya, B. Šimák, ��

Bibliografía consultada y recomendada Artículos científicos:

[1]Furui, Sadaoki. Digital Speech Processing, Synthesis, and Recognition. Marcel Deccer, Inc.: New York.

[2] Gold, Ben and Nelson Morgan. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley and Sons, Inc: New York. 2000.

[3]Deng, Li and Douglas O”Shaughnessy. Speech Processing: A Dynamic and Optimization-Oriented Approach. Marcel Dekker, Inc: New York. 2003.

[4]Gold, Ben and Nelson Morgan. Speech and Audio Signal Processing: Processing and Perception of Speech and Music. John Wiley and Sons, Inc: New York. 2000.

[5] Lemmetty, Sami. Review of Speech Synthesis Technology. (Master’s Thesis: Helsinki University of Technology) March 1999. http://www.acoustics.hut.fi/~slemmett/dippa/thesis.pdf.

[6]Markel, J.D. and A.H. Gray, Jr. Linear Predition of Speech. Springer-Verlag: Berlin. 1976.

Libro Científicos:

[7] “Speech Processing in the auditory system”, Colaboradores: Carlos Avendaño, Li Deng, Hynek Hermansky, , Ben Gold,� Steven Greenberg and William A.Ainsworth, Alan Palmer ,Shihab Shamma, Peter Assmann , Quentin Summerfield,�Nelson Morgan, Hervé Bourlard, and Hynek Hermansky, Brent Edwards. Editors: Steven Greenberg William A. Ainsworth Arthur N. Popper Richard R. Fay. Springer 2003.

63

Apéndice A

Extracción de características

Como se ha expuesto anteriormente en este documento se aplicaron varias técnicas de procesamiento del discurso humano y de la voz cantada con el fin de obtener características de los datos y así poder aplicar el algoritmo clasificador. La obtención de características se llevaba a cabo a través de la manipulación de funciones del Toolbox de libre acceso “Voicebox” [26] de Matlab de tratamiento de la voz humana como señal. Las siguientes funciones programadas en Matlab tienen relación con otras de “Voicebox”, es por esto que en dentro de los códigos, justo después del nombre de cada función en fuente verde se hace claridad en el trabajo que realiza la función, los parámetros externos que recibe y la forma indicada de hacerlo. La Función Paravoiced de “Voicebox” se usa en las siguientes funciones. Esta función recibe una variable tipo estructura donde el primer campo contiene la señal, y el segundo la frecuencia a la que fue muestreada. El resto de campos son vacíos, y la idea es que la función los retorne con la información pertinente. Estos campos son características numéricas de la señal que están relacionados con algunas técnicas vistas en el capítulo 3.

Fue de gran ayuda la implementación del algoritmo Cepstrum contenida en la función paravoiced para obtener la frecuencia fundamental de un espectro ya que con este dato, se programó un algoritmo que automáticamente calculaba los rangos de frecuencia en los que se encontraban los 20 formantes más representativos del espectro y los enviara a la función que hacía la aproximación gaussiana o a cualquiera que lo necesitase.

A.1 Código

A.1.1. verespectro.m function [NFFT, X_att, X_sus, f] = verespectro(y_att, y_sus ,Fs) %Esta función halla y grafica el espectro de las señales en el attack y en el sustain.%la función recibe:%y_att: Señal normalizada del attack en tiempo%y_sus: Señal normalizada de sustain en tiempo%Fs: Frecuencia de muestreo

64

%la función retorna: %X_att: Transformada de Fourier del attack%X_sus: Transformada de Fourier del sustain %NFFT: Cantidad de puntos hallados en la transformada de Fourier%f: Domino de frecuencia en el que se obtuvo el espectro.

T = 1/Fs; % periodo de muestreoL = length(y_att); % Tamaño de la señal

NFFT = 2^nextpow2(L); % siguiente potencia de 2 a la longitud de y%transformada de Fourier en el attack y sustainy1 = fft(y_att,NFFT)/L;y2 = fft(y_sus,NFFT)/L;%obtencion del dominio en el que se obtiene el espectro (Hz)f = Fs/2*linspace(0,1,NFFT/2);% Grafica de una sola cara del espectro normalizado en attack y sustain.X_att=2*abs(y1(1:NFFT/2));X_sus=2*abs(y2(1:NFFT/2));X_att=X_att/max(X_att);X_sus=X_sus/max(X_sus);plot(f,X_att/max(X_att),'Color','r','LineWidth',2)pausehold onplot(f,X_sus/max(X_sus),'Color','b','LineWidth',2)title( 'Espectro de una sola banda of y(t)')xlabel('Frequency (Hz)')ylabel('|y(f)|')pausehold offplot(f,X_att/max(X_att),'Color','r','LineWidth',2)end

A.1.2 Campana.m Function [coeff, campa1,campa2, caracte1] = campana(attack, sustain, fs, Fs, N,interval)

%Esta función aproxima cada armónico del sustain y del attack mediante suma de picos gaussianos, obtiene los parametros del modelo que arroja Matlab y los relaciona.%La función recibe:%attack: señal del attack en tiempo.%Sustain: señal del sustain en tiempo.%fs: Dominio de frecuencia en el que se obtuvo el espectro de las señales.%Fs: Frecuencia de muestreo.%Interval: Intervalos de frecuencia en los que están ubicados los armónicos donde se hará la aproximación gaussiana. Este vector se halla manualmente viendo el espectro en frecuencia de las señales, o también se puede hallar automáticamente programando un algoritmo de extracción de “pitch o frecuencia fundamental”, ya que la frecuencia central de cada formante se repite en múltiplos enteros del pitch lo cual se puede utilizar para hallar los intervalos en frecuencia donde se aplicara la aproximación gaussiana.

65

%Normalización de la señal en el attackattack=attack/max(attack); %Inicialización de los vectores de almacenamiento de parametros rel=[]; rel1=[]; coeff=zeros(1,6*(length(interval)-1)); campa1= cell(1,length(interval)); campa2= cell(1,length(interval)); rela_gau=zeros(1,24); er_energia_att1=zeros(1,length(interval)); er_energia_att2=zeros(1,length(interval)); er_energia_sus1=zeros(1,length(interval)); er_energia_sus2=zeros(1,length(interval)); er_tot=zeros(1,length(interval)); er_tot1=zeros(1,length(interval)); tot1=zeros(1,length(interval)); tot=zeros(1,length(interval)); aperturas2=zeros(1,length(interval)); aperturas1=zeros(1,length(interval)); medias2=zeros(1,length(interval)); medias1=zeros(1,length(interval)); tot_medias=zeros(1,length(interval)); tot_aperturas=zeros(1,length(interval)); energia=zeros(1,length(interval)); % Ciclo de aproximación por gaussianas por cada armónico del attack contenido en "interval"for i=1:(length(interval)-1) %inicializando los parametros del modelo de aproximación options = fitoptions('gauss8'); options.Lower = [0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0]; options.Robust='on'; options.Algorithm= 'Trust-Region'; options.DiffMaxChange=0.1; options.DiffMinChange=1e-8; options.MaxFunEvals=10000; options.MaxIter=10000; %Obtención del modelo en el attackgfit=fit(fs(interval(i):interval(i+1))',attack(interval(i):interval(i+1))','gauss8',options); %Grafica del modelo en el Attackplot(fs(interval(i):interval(i+1)),attack(interval(i):interval(i+1)),'Color','m','LineWidth',2); hold onplot(fs(interval(i):interval(i+1)),gfit(fs(interval(i):interval(i+1))),'Color','b','LineWidth',2); hold on

%Cálculo de la energía real y de la aproximación de cada armónicoer_energia_att1(i)=sum((abs(attack(interval(i):interval(i+1)))).^2)*Fs/N; er_energia_att2(i)=sum((abs(gfit.a1*exp(-((fs(interval(i):interval(i+1))-gfit.b1)/gfit.c1).^2) + gfit.a2*exp(-((fs(interval(i):interval(i+1))-gfit.b2)/gfit.c2).^2) + gfit.a3*exp(-((fs(interval(i):interval(i+1))-gfit.b3)/gfit.c3).^2)+gfit.a4*exp(-((fs(interval(i):interval(i+1))-gfit.b4)/gfit.c4).^2)+gfit.a5*exp(-((fs(interval(i):interval(i+1))-gfit.b5)/gfit.c5).^2) + gfit.a6*exp(-((fs(interval(i):interval(i+1))-

66

gfit.b6)/gfit.c6).^2) + gfit.a7*exp(-((fs(interval(i):interval(i+1))-gfit.b7)/gfit.c7).^2)+gfit.a8*exp(-((fs(interval(i):interval(i+1))-gfit.b8)/gfit.c8).^2))).^2)*Fs/N;

%Cálculo del error en la energía hasta el i-esimo armónicoer_tot(i)=100*abs(er_energia_att1(i)-er_energia_att2(i))/er_energia_att1(i); tot(i=sum(er_tot)/i; rela_gau=[gfit.a1 gfit.b1 gfit.c1 gfit.a2 gfit.b2 gfit.c2 gfit.a3 gfit.b3 gfit.c3 gfit.a4 gfit.b4 gfit.c4 gfit.a5 gfit.b5 gfit.c5 gfit.a6 gfit.b6 gfit.c6 gfit.a7 gfit.b7 gfit.c7 gfit.a8 gfit.b8 gfit.c8];

%almacenamiento delos parámetros de modelo de aprox. de cada armónicoaperturas1(i)=gfit.b1+gfit.b2+gfit.b3+gfit.b4+gfit.b5+gfit.b6+gfit.b7+gfit.b8; medias1(i)=(gfit.a1+gfit.a2+gfit.a3+gfit.a4+gfit.a5+gfit.a6+gfit.a7+gfit.a8)/8; rel=cat(2,rel,rela_gau); campa1{1,i}=rela_gau; endpause hold off

% Ciclo de aproximación por gaussianas por cada armónico del sustain% contenido en "interval"for j=1:(length(interval)-1) %inicializando los parametros del modelo de aproximación options1 = fitoptions('gauss8'); options1.Lower = [0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0 0 -Inf 0]; options1.Robust='on'; options1.Algorithm='Trust-Region'; options1.DiffMaxChange=0.1; options1.DiffMinChange=1e-8; options1.MaxFunEvals=10000; options1.MaxIter=10000; %Obtención del modelo en el sustaingfit2=fit(fs(interval(j):interval(j+1))',sustain(interval(j):interval(j+1))','gauss8',options1); %Gráfica del modelo en el Sustainplot(fs(interval(j):interval(j+1)),sustain(interval(j):interval(j+1)),'Color','g','LineWidth',2); hold onplot(fs(interval(j):interval(j+1)),gfit2.a1*exp(-((fs(interval(j):interval(j+1))-gfit2.b1)/gfit2.c1).^2) + gfit2.a2*exp(-((fs(interval(j):interval(j+1))-gfit2.b2)/gfit2.c2).^2) + gfit2.a3*exp(-((fs(interval(j):interval(j+1))-gfit2.b3)/gfit2.c3).^2)+gfit2.a4*exp(-((fs(interval(j):interval(j+1))-gfit2.b4)/gfit2.c4).^2)+gfit2.a5*exp(-((fs(interval(j):interval(j+1))-gfit2.b5)/gfit2.c5).^2) + gfit2.a6*exp(-((fs(interval(j):interval(j+1))-gfit2.b6)/gfit2.c6).^2) + gfit2.a7*exp(-((fs(interval(j):interval(j+1))-gfit2.b7)/gfit2.c7).^2)+gfit2.a8*exp(-((fs(interval(j):interval(j+1))-gfit2.b8)/gfit2.c8).^2),'Color','k','LineWidth',2); hold on

%Cálculo de la energia real y de la aproximación de cada armónicoer_energia_sus1(j)=sum((abs(sustain(interval(j):interval(j+1)))).^2)*Fs/N; er_energia_sus2(j)=sum((abs(gfit2.a1*exp(-((fs(interval(j):interval(j+1))-gfit2.b1)/gfit2.c1).^2) + gfit2.a2*exp(-((fs(interval(j):interval(j+1))-gfit2.b2)/gfit2.c2).^2)+gfit2.a3*exp(-((fs(interval(j):interval(j+1))-gfit2.b3)/gfit2.c3).^2)+gfit2.a4*exp(-((fs(interval(j):interval(j+1))-gfit2.b4)/gfit2.c4).^2)+ gfit2.a5*exp(-((fs(interval(j):interval(j+1))-gfit2.b5)/gfit2.c5).^2) + gfit2.a6*exp(-((fs(interval(j):interval(j+1))-

67

gfit2.b6)/gfit2.c6).^2)+gfit2.a7*exp(-((fs(interval(j):interval(j+1))-gfit2.b7)/gfit2.c7).^2)+gfit2.a8*exp(-((fs(interval(j):interval(j+1))-gfit2.b8)/gfit2.c8).^2))).^2)*Fs/N;

%Cálculo del error en la energia hasta el i-esimo armónicoer_tot1(j)=100*abs(er_energia_sus1(j)-er_energia_sus2(j))/er_energia_sus1(j); tot1(j)=sum(er_tot1)/j;

%almacenamiento delos parametros de modelo de aprox. de cada armónicorela_gau=[gfit2.a1 gfit2.b1 gfit2.c1 gfit2.a2 gfit2.b2 gfit2.c2 gfit2.a3 gfit2.b3 gfit2.c3 gfit2.a4 gfit2.b4 gfit2.c4 gfit2.a5 gfit2.b5 gfit2.c5 gfit2.a6 gfit2.b6 gfit2.c6 gfit2.a7 gfit2.b7 gfit2.c7 gfit2.a8 gfit2.b8 gfit2.c8]; aperturas2(j)=std([gfit2.b1 gfit2.b2 gfit2.b3 gfit2.b4 gfit2.b5 gfit2.b6 gfit2.b7 gfit2.b8]); medias2(j)=(gfit2.a1+gfit2.a2+gfit2.a3+gfit2.a4+gfit2.a5+gfit2.a6+gfit2.a7+gfit2.a8)/8; rel1=cat(2,rel1,rela_gau); campa2{1,j}=rela_gau; end

%Calculando las relaciones entre los parametros de los modelos del attack y%sustainfor g=1:length(interval) tot_medias(g)=abs(medias1(g)-medias2(g)); tot_aperturas(g)=aperturas2(g)/aperturas1(g); energia(g)=er_energia_sus2(g)/er_energia_att2(g); endcaracte1=cat(2,tot_medias,tot_aperturas,energia); pause hold off

%graficando el error promedio de aproximación hasta el i-esimo formante,%tanto en el attack como en el sustainplot((1:length(interval)),tot/max(tot),'Color','m','LineWidth',2); title('Error promedio de energia') xlabel('Armónicos') hold onplot((1:length(interval)),tot1/max(tot1),'Color','g','LineWidth',2); pause plot((1:length(interval)),tot/max(tot),'Color','m','LineWidth',2); title('Error promedio de energia') xlabel('Armónicos') hold onplot((1:length(interval)),tot1/max(tot1),'Color','g','LineWidth',2); pause for k=1:6*(length(interval)-1) coeff(k)=rel1(k)/rel(k); end

end

A.1.3 Prueba_Caracteristicas.m %% Esta función tipo celda importa el archivo .WAV a través del comando wavread, lo almacena en un vector de amplitudes, y aplica a este todas las funciones de extracción de características, por ultimo arma el vector mediante concatenación.

68

[y, Fs, nbits]= wavread('Nombre del archivo de audio ejemplo: Boca1');y=y(:,1);if max(y)>-min(y) %normalización

%Se crea la estructura sig con los campos “y” y “fs” que hacen referencia a la señal y a la frecuencia de muestreo de la misma respectivamente.sig.y=y/max(y);elsesig.y=y/(-min(y)); end

%Paravoiced de la señal originalsig.fs=44100;sig=paravoiced(sig);hold off

%se ve el espectro en frecuencia en el attack y sustain[NFFT,X_att,X_sus,fs] = verespectro(y(1:sig.att),y((sig.sus-sig.att):sig.sus),Fs);

%paravoiced para el attacksig_att.y=y(1:sig.att);sig_att.fs=44100;sig_att=paravoiced(sig_att);

%paravoiced para el sustainsig_sus.y=y((sig.sus-sig.att):sig.sus);sig_sus.fs=44100;sig_sus=paravoiced(sig_sus);

% promedio de relación de amplitud de los formantes en db. (LPC)pro_amplitues=std(abs(20*log10(sig_sus.fm./sig_sus.fm(1))))/std(abs(20*log10(sig_sus.fm./sig_sus.fm(1))));

%valor promedio de ganancia del filtro AR (tracto vocal) en las%frecuencias formantes para el attack ((LPC))prom_gan_tracto=mean(sig_sus.er./abs(sig_sus.fm))/mean(sig_att.er./abs(sig_att.fm));prom_desfas_tracto=mean(sig_sus.er./angle(sig_sus.fm))/mean(sig_att.er./angle(sig_att.fm));

%aproximación de armónicos con picos gaussianos pitch=median(sig.pit);asi=[0];for i=0:24asi=cat(2,asi,find(fs>i*pitch/2,1,'first'));end[coeff,campa1,campa2,caracte1] = campana(X_att,X_sus,fs,Fs,NFFT,asi);

69

%relación entre la duración del "voiced component" con respecto toda a la%señal

duracion=[(length(sig.y)/fs)/(length(sig.lseg)/fs)];

%Pendiente promedio del transitorio de espectro cepstrum, durante cada%ventana

pend_cepstrum=[sig.pend];

%generación del vector de características en cada audiocaracteristicas=cat(2,pro_amplitues,prom_gan_tracto,caracte1,duracion,pend_cepstrum);

1 modelamiento de la técnica vocal musical lírica

Documents