Professors Titulars
Caracterització temporal i freqüencial de senyals i sistemes analògics. Teorema del mostratge per a senyals de banda limitada. Transformada de Fourier per a seqüències discretes (TFSD). Filtres FIR i IIR. Transformada Discreta de Fourier (DFT). Transformada Z.
En l'assignatura Processament d'àudio i parla s'estableixen de forma genèrica els següents resultats d'aprenentatge:
- Conèixer tècniques de parametrització de la señal acústica, així com tècniques d'aprenentatge artificial per a la classificació d'events sonors i so ambiental.
- Dominar les característiques i paràmetres principals per a l'anàlisi i la síntesi de la parla humana.
Més concretament, els alumnes de Processament d'àudio i parla han d'assolir els següents coneixements i habilitats:
1. Assolir coneixements en l'ús d'eines de suport per al desenvolupament d'aplicacions dins l'àmbit del processament digital del senyal (MATLAB).
2. Adquirir els fonaments del tractament digital del senyal que els hi permetin assimilar posteriorment els conceptes relacionats amb el tractament de la parla l'anàlisi i reconeixement d'àudio ambiental i events sonors.
3. Adquirir els coneixements bàsics sobre la producció i percepció de la parla que els possibilitin entendre les tècniques d'anàlisi del senyal de veu i els models utilitzats en les diferents aplicacions relacionades amb les Tecnologies de la Parla.
4. Adquirir els coneixements bàsics sobre l'anàlisi del senyal de veu i les seves aplicacions.
5. Identificar, formular i resoldre problemes de tractament digital de la parla en un entorn multidisciplinari de manera individual o com a membre d´un equip.
6. Entendre i aplicar mètodes de parametrització del senyal acústic per al seu posterior tractament.
7. Adquirir els coneixements bàsics sobre tècniques d'aprenentatge artificial aplicades a la detecció i reconeixement d'events sonors i so ambiental.
CONTINGUTS DE ÀUDIO
1. Introducció al reconeixement de so
2. Parametrització del senyal d'àudio
3. Tècniques d'aprenentatge artificial
4. Pràctica de reconeixement de so
CONTINGUTS DE PARLA
1. Sistemes de parla humana
2. Anàlisi de la parla
3. Reconeixement automàtic de la parla
La metodologia docent utilitzada en l'assignatura de Processament d'àudio i parla es basa en la combinació de classes teòriques magistrals juntament amb activitats pràctiques que permeten a l'alumne aprofundir i exemplificar els continguts teòrics abordats en casos pràctics d'aplicació dins de les tecnologies del tractament del senyal d'àudio i de la parla.
Per cada bloc de l'assignatura es comença fent unes sessions de teoria, per seguir amb sessions de treball pràctic en grups de tres persones. Part del treball pràctic es realitza a la mateixa aula, en hores lectives, la qual està dissenyada per facilitar el treball en equip utilitzant ordinadors portàtils amb connexió a Internet, i a on el professor guia als alumnes en la consecució dels objectius plantejats en el treball. Aquest treball en equip s'ha de complementar amb una dedicació fora de les hores lectives, tant pel grup per assolir els reptes plantejats, com personalment per assimilar els conceptes teòrics.
Els instruments avaluatius utilitzats en l'assignatura de Processament d'àudio i parla són:
- Exàmens individuals: per cada bloc (àudio i parla) l'alumne ha de realitzar un exàmen sobre els continguts teòrics del mòdul.
- Controls pràctics individuals: per cada activitat pràctica de cada mòdul, l'alumne ha de realitar un control individual que permeti reflexar el grau de domini de l'exercici pràctic realitzat en grup.
- Entregables dels exercicis pràctics: cada grup d'alumnes ha de lliurar un entregable per cada mòdul, que inclou lliurament de codi així com d'informes que descriguin i discuteixin els resultats obtinguts.
La nota final de l'assignatura es calcula com un promig de les notes de cada mòdul, i cal que la nota final estigui aprovada amb un 5 o més per poder superar-la:
NF=(50%) N_Parla+(50%) N_Audio
A més, la nota de cada mòdul ha de ser major o igual que 3.5, ja que en cas contrari la nota final es calcula com la menor de les dues notes.
Cada mòdul s'avalua mitjançant el promig de la nota de teoria i la nota de pràctica:
N_x=(50%) N_teoria+(50%) N_practica
La nota de teoria s'obté dels exàmens de teoria individuals. La nota de la pràctica s'obté a partir d'una ponderació que té en compte el control pràctic individual (60%), els entregables (30%) i una nota d'actitud i participació (10%).
Joan Claudi Socoró, Ignasi Iriondo, Apunts de Processament digital d'àudio i parla, Enginyeria La Salle.
THOMAS F. QUATIERI (2002) Discrete-time speech signal processing. Principles and practice., Prentice-Hall, 2002.
MARK KAHRS, KARLHEINZ BRANDENBRUG (1998). Applications of digital signal processing to audio and acoustics, Kluwer Academic Publishers, 1998.
RICHARD O. DUDA, PETER E. HART, DAVID G. STORK (2012), Pattern classification, John Wiley & Sons, 2012.
TODD K. MOON, WYNN C. STIRLING (2000), Mathematical methods and algorithms for signal processing, Prentice-Hall, 2000.
FRANCESC ALÍAS, JOAN CLAUDI SOCORÓ, XAVIER SEVILLANO (2016) "A Review of Physical and Perceptual Feature Extraction Techniques for Speech, Music and Environmental Sounds", Applied Sciences (Special issue on Audio Signal Processing), 6(5):143; doi:10.3390/app6050143 (MPDI - Open Access Publishing), May 2016.
J.R. DELLER, J. G. PROAKIS, J.H. L. HANSEN. Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, 1993.
L. RABINER, L. Y. JUANG. Fundamentals of speech recognition. Prentice Hall, 1993.
X. HUANG, A. ACERO, H.W. HON. Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001