Processament d'àudio i parla

Descripció

Dins de diverses aplicacions del processament digital del senyal trobem aquelles que permeten treballar sobre aspectes de la interacció oral (per veu) i audivita amb les màquines. En aquest context podem trobar aplicacions tant que permeten processar allò que es diu (reconeixement de parla) com allò que se sent (reducció o cancel·lació de soroll, reconeixement de so ambiental, detecció devents de so, reconeixement de música, etc.), com també daltres que permeten generar missatges orals de forma automàtica (síntesi de parla) o també senyals de so de naturalitat diversa (síntesi de so, síntesi de veu cantada, efectes de so, etc.). Aquest ventall daplicacions està revolucionant el món de la interacció entre les persones i les màquines, gràcies a la revolució dels sistemes digitals i a la cada vegada major capacitat de computació dels dispositius mòbils. Dins de tot aquest univers daplicacions, a lassignatura de Processament Digital dÀudio i Parla es treballen les bases que permeten reconèixer de forma automàtica events sonors i so ambiental, i també sestudien tècniques per poder generar i transformar veu sintètica.

Tipus assignatura

Optativa

Semestre

Primer

Crèdits

4.00

Professors Titulars

Joan Claudi Socoró Carrié

Membre

Coneixements previs

Caracterització temporal i freqüencial de senyals i sistemes analògics. Teorema del mostratge per a senyals de banda limitada. Transformada de Fourier per a seqüències discretes (TFSD). Filtres FIR i IIR. Transformada Discreta de Fourier (DFT). Transformada Z.

Objectius

En l'assignatura Processament d'àudio i parla s'estableixen de forma genèrica els següents resultats d'aprenentatge:

- Conèixer tècniques de parametrització de la señal acústica, així com tècniques daprenentatge artificial per a la classificació devents sonors i so ambiental.

- Dominar les característiques i paràmetres principals per a l'anàlisi i la síntesi de la parla humana.

Més concretament, els alumnes de Processament d'àudio i parla han d'assolir els següents coneixements i habilitats:

1. Assolir coneixements en l'ús d'eines de suport per al desenvolupament d'aplicacions dins l'àmbit del processament digital del senyal (MATLAB).

2. Adquirir els fonaments del tractament digital del senyal que els hi permetin assimilar posteriorment els conceptes relacionats amb el tractament de la parla lanàlisi i reconeixement dàudio ambiental i events sonors.

3. Adquirir els coneixements bàsics sobre la producció i percepció de la parla que els possibilitin entendre les tècniques d'anàlisi del senyal de veu i els models utilitzats en les diferents aplicacions relacionades amb les Tecnologies de la Parla.

4. Adquirir els coneixements bàsics sobre l'anàlisi del senyal de veu i les seves aplicacions.

5. Identificar, formular i resoldre problemes de tractament digital de la parla en un entorn multidisciplinari de manera individual o com a membre d´un equip.

6. Entendre i aplicar mètodes de parametrització del senyal acústic per al seu posterior tractament.

7. Adquirir els coneixements bàsics sobre tècniques daprenentatge artificial aplicades a la detecció i reconeixement devents sonors i so ambiental.

Continguts

CONTINGUTS DE ÀUDIO
1. Introducció al reconeixement de so
2. Parametrització del senyal dàudio
3. Tècniques daprenentatge artificial
4. Pràctica de reconeixement de so

CONTINGUTS DE PARLA
1. Sistemes de parla humana
2. Anàlisi de la parla
3. Reconeixement automàtic de la parla

Metodologia

La metodologia docent utilitzada en l'assignatura de Processament d'àudio i parla es basa en la combinació de classes teòriques magistrals juntament amb activitats pràctiques que permeten a lalumne aprofundir i exemplificar els continguts teòrics abordats en casos pràctics daplicació dins de les tecnologies del tractament del senyal dàudio i de la parla.

Per cada bloc de lassignatura es comença fent unes sessions de teoria, per seguir amb sessions de treball pràctic en grups de tres persones. Part del treball pràctic es realitza a la mateixa aula, en hores lectives, la qual està dissenyada per facilitar el treball en equip utilitzant ordinadors portàtils amb connexió a Internet, i a on el professor guia als alumnes en la consecució dels objectius plantejats en el treball. Aquest treball en equip s'ha de complementar amb una dedicació fora de les hores lectives, tant pel grup per assolir els reptes plantejats, com personalment per assimilar els conceptes teòrics.

Avaluació

Els instruments avaluatius utilitzats en l'assignatura de Processament d'àudio i parla són:

- Exàmens individuals: per cada bloc (àudio i parla) lalumne ha de realitzar un exàmen sobre els continguts teòrics del mòdul.
- Controls pràctics individuals: per cada activitat pràctica de cada mòdul, lalumne ha de realitar un control individual que permeti reflexar el grau de domini de lexercici pràctic realitzat en grup.
- Entregables dels exercicis pràctics: cada grup dalumnes ha de lliurar un entregable per cada mòdul, que inclou lliurament de codi així com dinformes que descriguin i discuteixin els resultats obtinguts.

Criteris avaluació

La nota final de lassignatura es calcula com un promig de les notes de cada mòdul, i cal que la nota final estigui aprovada amb un 5 o més per poder superar-la:
NF=(50%) N_Parla+(50%) N_Audio

A més, la nota de cada mòdul ha de ser major o igual que 3.5, ja que en cas contrari la nota final es calcula com la menor de les dues notes.

Cada mòdul savalua mitjançant el promig de la nota de teoria i la nota de pràctica:
N_x=(50%) N_teoria+(50%) N_practica

La nota de teoria sobté dels exàmens de teoria individuals. La nota de la pràctica sobté a partir duna ponderació que té en compte el control pràctic individual (60%), els entregables (30%) i una nota dactitud i participació (10%).

Bibliografia bàsica

Joan Claudi Socoró, Ignasi Iriondo, Apunts de Processament digital dàudio i parla, Enginyeria La Salle, 2017.

Material complementari

THOMAS F. QUATIERI (2002) Discrete-time speech signal processing. Principles and practice., Prentice-Hall, 2002.
MARK KAHRS, KARLHEINZ BRANDENBRUG (1998). Applications of digital signal processing to audio and acoustics, Kluwer Academic Publishers, 1998.

RICHARD O. DUDA, PETER E. HART, DAVID G. STORK (2012), Pattern classification, John Wiley & Sons, 2012.

TODD K. MOON, WYNN C. STIRLING (2000), Mathematical methods and algorithms for signal processing, Prentice-Hall, 2000.

FRANCESC ALÍAS, JOAN CLAUDI SOCORÓ, XAVIER SEVILLANO (2016) "A Review of Physical and Perceptual Feature Extraction Techniques for Speech, Music and Environmental Sounds", Applied Sciences (Special issue on Audio Signal Processing), 6(5):143; doi:10.3390/app6050143 (MPDI - Open Access Publishing), May 2016.

J.R. DELLER, J. G. PROAKIS, J.H. L. HANSEN. Discrete-Time Processing of Speech Signals. Macmillan Publishing Company, 1993.

L. RABINER, L. Y. JUANG. Fundamentals of speech recognition. Prentice Hall, 1993.

X. HUANG, A. ACERO, H.W. HON. Spoken Language Processing: A Guide to Theory, Algorithm and System Development, Prentice Hall, 2001

Grau en International Computer Engineering

El Grau en Enginyeria Informàtica de La Salle és l'únic programa de grau a Barcelona que et proporcionarà les habilitats i el coneixement per donar resposta a les necessitats internacionals del sector de la informàtica i dels negocis.

Professors Titulars

T’ajudem?

Segueix La Salle BCN

Grau en International Computer Engineering

El Grau en Enginyeria Informàtica de La Salle és l'únic programa de grau a Barcelona que et proporcionarà les habilitats i el coneixement per donar resposta a les necessitats internacionals del sector de la informàtica i dels negocis.

Processament d'àudio i parla

Professors Titulars

T’ajudem?

Segueix La Salle BCN

Formulari de cerca