Processament d'àudio i parla

Descripció:

Dins de diverses aplicacions del processament digital del senyal trobem aquelles que permeten treballar sobre aspectes de la interacció oral (per veu) i audivita amb les màquines. En aquest context podem trobar aplicacions tant que permeten processar allò que es diu (reconeixement de parla) com allò que se sent (reducció o cancel·lació de soroll, reconeixement de so ambiental, detecció d'events de so, reconeixement de música, etc.), com també d'altres que permeten generar missatges orals de forma automàtica (síntesi de parla) o també senyals de so de naturalitat diversa (síntesi de so, síntesi de veu cantada, efectes de so, etc.). Aquest ventall d'aplicacions està revolucionant el món de la interacció entre les persones i les màquines, gràcies a la revolució dels sistemes digitals i a la cada vegada major capacitat de computació dels dispositius mòbils. Dins de tot aquest univers d'aplicacions, a l'assignatura de Processament Digital d'Àudio i Parla es treballen les bases que permeten reconèixer de forma automàtica events sonors i so ambiental, i també s'estudien tècniques per poder generar i transformar veu sintètica.

Tipus assignatura

Optativa

Semestre

Primer

Crèdits

4.00

Professors Titulars

Joan Claudi Socoró Carrié

Membre

Coneixements previs:

Caracterització temporal i freqüencial de senyals i sistemes analògics. Teorema del mostratge per a senyals de banda limitada. Transformada de Fourier per a seqüències discretes (TFSD). Filtres FIR i IIR. Transformada Discreta de Fourier (DFT). Transformada Z.

Objectius:

En l'assignatura Processament d'àudio i parla s'estableixen de forma genèrica els següents resultats d'aprenentatge:

- Conèixer tècniques de parametrització de la señal acústica, així com tècniques d'aprenentatge artificial per a la classificació d'events sonors i so ambiental.

- Dominar les característiques i paràmetres principals per a l'anàlisi i la síntesi de la parla humana.

Més concretament, els alumnes de Processament d'àudio i parla han d'assolir els següents coneixements i habilitats:

1. Assolir coneixements en l'ús d'eines de suport per al desenvolupament d'aplicacions dins l'àmbit del processament digital del senyal (MATLAB).

2. Adquirir els fonaments del tractament digital del senyal que els hi permetin assimilar posteriorment els conceptes relacionats amb el tractament de la parla l'anàlisi i reconeixement d'àudio ambiental i events sonors.

3. Adquirir els coneixements bàsics sobre la producció i percepció de la parla que els possibilitin entendre les tècniques d'anàlisi del senyal de veu i els models utilitzats en les diferents aplicacions relacionades amb les Tecnologies de la Parla.

4. Adquirir els coneixements bàsics sobre l'anàlisi del senyal de veu i les seves aplicacions.

5. Identificar, formular i resoldre problemes de tractament digital de la parla en un entorn multidisciplinari de manera individual o com a membre d´un equip.

6. Entendre i aplicar mètodes de parametrització del senyal acústic per al seu posterior tractament.

7. Adquirir els coneixements bàsics sobre tècniques d'aprenentatge artificial aplicades a la detecció i reconeixement d'events sonors i so ambiental.

Continguts:

CONTINGUTS DE ÀUDIO
1. Introducció al reconeixement de so
2. Parametrització del senyal d'àudio
3. Tècniques d'aprenentatge artificial
4. Pràctica de reconeixement de so

CONTINGUTS DE PARLA
1. Sistemes de parla humana
2. Anàlisi de la parla
3. Reconeixement automàtic de la parla

Metodologia:

La metodologia docent utilitzada en l'assignatura de Processament d'àudio i parla es basa en la combinació de classes teòriques magistrals juntament amb activitats pràctiques que permeten a l'alumne aprofundir i exemplificar els continguts teòrics abordats en casos pràctics d'aplicació dins de les tecnologies del tractament del senyal d'àudio i de la parla.

Per cada bloc de l'assignatura es comença fent unes sessions de teoria, per seguir amb sessions de treball pràctic en grups de tres persones. Part del treball pràctic es realitza a la mateixa aula, en hores lectives, la qual està dissenyada per facilitar el treball en equip utilitzant ordinadors portàtils amb connexió a Internet, i a on el professor guia als alumnes en la consecució dels objectius plantejats en el treball. Aquest treball en equip s'ha de complementar amb una dedicació fora de les hores lectives, tant pel grup per assolir els reptes plantejats, com personalment per assimilar els conceptes teòrics.

Avaluació:

Els instruments avaluatius utilitzats en l'assignatura de Processament d'àudio i parla són:

- Exàmens individuals: per cada bloc (àudio i parla) l'alumne ha de realitzar un exàmen sobre els continguts teòrics del mòdul.
- Controls pràctics individuals: per cada activitat pràctica de cada mòdul, l'alumne ha de realitar un control individual que permeti reflexar el grau de domini de l'exercici pràctic realitzat en grup.
- Entregables dels exercicis pràctics: cada grup d'alumnes ha de lliurar un entregable per cada mòdul, que inclou lliurament de codi així com d'informes que descriguin i discuteixin els resultats obtinguts.

Criteris avaluació:

La nota final de l'assignatura es calcula com un promig de les notes de cada mòdul, i cal que la nota final estigui aprovada amb un 5 o més per poder superar-la:
NF=(50%) N_Parla+(50%) N_Audio

A més, la nota de cada mòdul ha de ser major o igual que 3.5, ja que en cas contrari la nota final es calcula com la menor de les dues notes.

Cada mòdul s'avalua mitjançant el promig de la nota de teoria i la nota de pràctica:
N_x=(50%) N_teoria+(50%) N_practica

La nota de teoria s'obté dels exàmens de teoria individuals. La nota de la pràctica s'obté a partir d'una ponderació que té en compte el control pràctic individual (60%), els entregables (30%) i una nota d'actitud i participació (10%).

Bibliografia bàsica:

Joan Claudi Socoró, Ignasi Iriondo, Apunts de Processament digital d'àudio i parla, Enginyeria La Salle.

Material complementari:

THOMAS F. QUATIERI (2002) Discrete-time speech signal processing. Principles and practice., Prentice-Hall, 2002.
MARK KAHRS, KARLHEINZ BRANDENBRUG (1998). Applications of digital signal processing to audio and acoustics, Kluwer Academic Publishers, 1998.

RICHARD O. DUDA, PETER E. HART, DAVID G. STORK (2012), Pattern classification, John Wiley & Sons, 2012.

TODD K. MOON, WYNN C. STIRLING (2000), Mathematical methods and algorithms for signal processing, Prentice-Hall, 2000.

FRANCESC ALÍAS, JOAN CLAUDI SOCORÓ, XAVIER SEVILLANO (2016) "A Review of Physical and Perceptual Feature Extraction Techniques for Speech, Music and Environmental Sounds", Applied Sciences (Special issue on Audio Signal Processing), 6(5):143; doi:10.3390/app6050143 (MPDI - Open Access Publishing), May 2016.

J.R. DELLER, J. G. PROAKIS, J.H. L. HANSEN. Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, 1993.

L. RABINER, L. Y. JUANG. Fundamentals of speech recognition. Prentice Hall, 1993.

X. HUANG, A. ACERO, H.W. HON. Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001

Doble Grau en Enginyeria de Sistemes de Telecomunicació i Enginyeria en Organització de les TIC

La Salle Campus Barcelona t'ofereix 5 dobles titulacions en l'àmbit de les Enginyeries TIC. Amb els dobles graus podràs finalitzar els estudis universitaris en 5 anys acadèmics amb dues titulacions oficials de grau.

Professors Titulars

T’ajudem?

Segueix La Salle BCN

Doble Grau en Enginyeria de Sistemes de Telecomunicació i Enginyeria en Organització de les TIC

La Salle Campus Barcelona t'ofereix 5 dobles titulacions en l'àmbit de les Enginyeries TIC. Amb els dobles graus podràs finalitzar els estudis universitaris en 5 anys acadèmics amb dues titulacions oficials de grau.

Processament d'àudio i parla

Professors Titulars

T’ajudem?

Segueix La Salle BCN

Formulari de cerca