Procesamiento de audio y habla

Descripción:

Dentro de varias aplicaciones del procesamiento digital de la señal encontramos aquellas que permiten trabajar sobre aspectos de la interacción oral (por voz) y audivita con las máquinas. En este contexto podemos encontrar aplicaciones tanto que permiten procesar lo que se dice (reconocimiento de habla) como lo que se siente (reducción o cancelación de ruido, reconocimiento de sonido ambiental, detección de eventos de sonido, reconocimiento de música, etc .), así como otros que permiten generar mensajes orales de forma automática (síntesis de habla) o también señales de sonido de naturalidad diversa (síntesis de sonido, síntesis de voz cantada, efectos de sonido, etc.). Este abanico de aplicaciones está revolucionando el mundo de la interacción entre las personas y las máquinas, gracias a la revolución de los sistemas digitales y la cada vez mayor capacidad de computación de los dispositivos móviles. Dentro de todo este universo de aplicaciones, en la asignatura de Procesamiento Digital de Audio y Habla se trabajan las bases que permiten reconocer de forma automática eventos sonoros y sonido ambiental, y también se estudian técnicas para poder generar y transformar voz sintética .

Tipo asignatura

Optativa

Semestre

Primero

Créditos

4.00

Profesores Titulares

Joan Claudi Socoró Carrié

Membre

Conocimientos previos:

Caracterización temporal y frecuencial de señales y sistemas analógicos. Teorema del muestreo para señales de banda limitada. Transformada de Fourier para secuencias discretas (TFSD). Filtros FIR y IIR. Transformada Discreta de Fourier (DFT). Transformada Z.

Objetivos:

En la asignatura Procesamiento de audio y habla establecen de forma genérica los siguientes resultados de aprendizaje:

- Conocer técnicas de parametrización de la señal acústica, así como técnicas de aprendizaje artificial para la clasificación de eventos sonoros y sonido ambiental.

- Dominar las características y parámetros principales para el análisis y la síntesis del habla humana.

Más concretamente, los alumnos de Procesamiento de audio y habla deben alcanzar los siguientes conocimientos y habilidades:

1. Adquirir conocimientos en el uso de herramientas de apoyo para el desarrollo de aplicaciones en el ámbito del procesamiento digital de la señal (MATLAB).

2. Adquirir los fundamentos del tratamiento digital de la señal que les permitan asimilar posteriormente los conceptos relacionados con el tratamiento del habla el análisis y reconocimiento de audio ambiental y eventos sonoros.

3. Adquirir los conocimientos básicos sobre la producción y percepción del habla que les posibiliten entender las técnicas de análisis de la señal de voz y los modelos utilizados en las diferentes aplicaciones relacionadas con las Tecnologías del Habla.

4. Adquirir los conocimientos básicos sobre el análisis de la señal de voz y sus aplicaciones.

5. Identificar, formular y resolver problemas de tratamiento digital del habla en un entorno multidisciplinar de forma individual o como miembro de un equipo.

6. Entender y aplicar métodos de parametrización de la señal acústica para su posterior tratamiento.

7. Adquirir los conocimientos básicos sobre técnicas de aprendizaje artificial aplicadas a la detección y reconocimiento de eventos sonoros y sonido ambiental.

Contenidos:

CONTENIDOS DE AUDIO
1. Introducción al reconocimiento de sonido
2. Parametrización de la señal de audio
3. Técnicas de aprendizaje artificial
4. Práctica de reconocimiento de sonido

CONTENIDOS DE HABLA
1. Sistemas de habla humana
2. Análisis del habla
3. Reconocimiento automático del habla
4. Práctica sobre análsisi del habla

Metodología:

La metodología docente utilizada en la asignatura de Procesamiento de audio y habla se basa en la combinación de clases teóricas magistrales junto con actividades prácticas que permiten al alumno profundizar y ejemplificar los contenidos teóricos abordados en casos prácticos de aplicación dentro de las tecnologías del tratamiento de la señal de audio y del habla.

Para cada bloque de la asignatura se empieza haciendo unas sesiones de teoría, para seguir con sesiones de trabajo práctico en grupos de tres personas. Parte del trabajo práctico se realiza en la misma aula, en horas lectivas, la cual está diseñada para facilitar el trabajo en equipo utilizando ordenadores portátiles con conexión a Internet, y donde el profesor guía a los alumnos en la consecución de los objetivos planteados en el trabajo. Este trabajo en equipo debe complementarse con una dedicación fuera de las horas lectivas, tanto por el grupo para alcanzar los retos planteados, como personalmente para asimilar los conceptos teóricos.

Evaluación:

Los instrumentos evaluativos utilizados en la asignatura de Procesamiento de audio y habla son:

- Exámenes individuales: por cada bloque (audio y habla) el alumno debe realizar un examen sobre los contenidos teóricos del módulo.
- Controles prácticos individuales: por cada actividad práctica de cada módulo, el alumno debe realidad un control individual que permita reflejar el grado de dominio del ejercicio práctico realizado en grupo.
- Entregables los ejercicios prácticos: cada grupo de alumnos debe entregar un entregable por cada módulo, que incluye entrega de código así como de informes que describan y discutan los resultados obtenidos.

Criterios evaluación:

La nota final de la asignatura se calcula como un promedio de las notas de cada módulo, y es necesario que la nota final esté aprobada con un 5 o más para poder superarla:
NF=(50%) N_Parla+(50%) N_Audio

Además, la nota de cada módulo debe ser mayor o igual que 3.5, ya que de lo contrario la nota final se calcula como la menor de las dos notas.

Cada módulo se evalúa mediante el promedio de la nota de teoría y la nota de práctica:
N_x=(50%) N_teoria+(50%) N_practica

La nota de teoría se obtiene de los exámenes de teoría individuales. La nota de la práctica se obtiene a partir de una ponderación que tiene en cuenta el control práctico individual (60%), los entregables (30%) y una nota de actitud y participación (10%).

Bibliografía básica:

Joan Claudi Socoró, Ignasi Iriondo, Apuntes de Procesamiento digital de audio y habla, Enginyeria La Salle.

Material complementario:

THOMAS F. QUATIERI (2002) Discrete-time speech signal processing. Principles and practice., Prentice-Hall, 2002.
MARK KAHRS, KARLHEINZ BRANDENBRUG (1998). Applications of digital signal processing to audio and acoustics, Kluwer Academic Publishers, 1998.

RICHARD O. DUDA, PETER E. HART, DAVID G. STORK (2012), Pattern classification, John Wiley & Sons, 2012.

TODD K. MOON, WYNN C. STIRLING (2000), Mathematical methods and algorithms for signal processing, Prentice-Hall, 2000.

FRANCESC ALÍAS, JOAN CLAUDI SOCORÓ, XAVIER SEVILLANO (2016) "A Review of Physical and Perceptual Feature Extraction Techniques for Speech, Music and Environmental Sounds", Applied Sciences (Special issue on Audio Signal Processing), 6(5):143; doi:10.3390/app6050143 (MPDI - Open Access Publishing), May 2016.

J.R. DELLER, J. G. PROAKIS, J.H. L. HANSEN. Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, 1993.

L. RABINER, L. Y. JUANG. Fundamentals of speech recognition. Prentice Hall, 1993.

X. HUANG, A. ACERO, H.W. HON. Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001

Doble Grado en Ingeniería Telemática e Ingeniería Informática

Fórmate para ser un ingeniero experto en Redes y Tecnologías de Internet y adquiere a la vez las certificaciones oficiales de CCNA y CCNP

Profesores Titulares

¿Te ayudamos?

Sigue a La Salle BCN

Doble Grado en Ingeniería Telemática e Ingeniería Informática

Fórmate para ser un ingeniero experto en Redes y Tecnologías de Internet y adquiere a la vez las certificaciones oficiales de CCNA y CCNP

Procesamiento de audio y habla

Profesores Titulares

¿Te ayudamos?

Sigue a La Salle BCN

Formulario de búsqueda