Professors Docents
Els coneixements previs necessaris per cursar aquesta assignatura inclouen un domini de l'àlgebra lineal, especialment en el treball amb matrius, i de l'estadística avançada, així com una comprensió sòlida dels fonaments de la intel·ligència artificial i de les tècniques d'anàlisi de dades; també es requereix familiaritat amb l'arquitectura i gestió de pipelines de Big Data, juntament amb un domini avançat del llenguatge Python i de les eines i entorns de desenvolupament i execució més habituals, com ara Jupyter, VS Code, entorns virtuals i gestors de paquets.
L'objectiu d'aquest mòdul és que l'estudiant adquireixi els coneixements fonamentals i desenvolupi una competència suficient en les diverses tècniques de processament de dades no estructurades, així com els criteris necessaris per identificar els mètodes més adequats per analitzar, tractar i extreure valor empresarial d'aquest tipus de dades.
- Introducció a les Dades No Estructurades. Aquesta sessió ofereix una visió general del curs i introdueix els reptes associats al tractament de dades no estructurades, com ara text i imatges, la seva prevalença en escenaris reals i la importància de les tècniques analítiques per extreure'n coneixements significatius. També s'hi introdueixen conceptes fonamentals de neurociència aplicada, passos estàndard de preprocessament i eines essencials per gestionar aquest tipus de dades.
- Anàlisi de Co-ocurrència i Visualització de Dades d'Alta Dimensió amb PCA. Aquesta sessió examina la freqüència i els patrons d'elements emparellats (per exemple, paraules clau o codis dins d'un conjunt de dades) per descobrir associacions i relacions estructurals entre components de les dades. També s'hi aborda la projecció de conjunts de dades multifactorials en espais de menor dimensió mitjançant l'Anàlisi de Components Principals (PCA), permetent una interpretació més clara de l'estructura i la variància de les dades en dues o tres dimensions.
- PCA (Continuació) i Aprenentatge de Varietats (Manifold Learning). Aquesta sessió explora una família d'algorismes no lineals dissenyats per descobrir estructures de baixa dimensió incrustades en dades d'alta dimensió. En preservar les relacions geomètriques intrínseques, aquests mètodes revelen patrons complexos que les tècniques lineals com el PCA no poden capturar.
- Clústering: k-means i Altres Models. Aquesta sessió se centra en algorismes de clústering no supervisat que particionen les dades en un nombre predefinit de grups. Posteriorment, s'amplia a enfocaments probabilístics, modelant les dades com una combinació de múltiples distribucions per capturar estructures més flexibles i probabilitats d'assignació.
- Clústering (Continuació): Interpretació i Selecció del Nombre de Clústers. Aquesta sessió aborda estratègies per determinar el nombre òptim de clústers mitjançant criteris basats en la versemblança que equilibren l'ajust del model amb la seva complexitat, ajudant a evitar el sobreajustament i garantint resultats robustos i interpretables.
- Revisió de Dades No Estructurades. Aquesta sessió revisa els reptes específics del treball amb dades no estructurades, particularment llenguatge natural i imatges, la seva ubiqüitat en contextos reals i el paper crític de les tècniques analítiques per derivar coneixements accionables. També es repassen conceptes fonamentals de neurociència, fluxos de treball comuns de preprocessament i eines clau per gestionar dades no estructurades
- NLP Basat en Regles. Aquesta sessió se centra en mètodes de processament del llenguatge natural basats en regles, que depenen de patrons i regles lingüístiques elaborades manualment per analitzar i manipular text. S'hi cobreixen tècniques essencials com la tokenització, l'etiquetatge gramatical (POS tagging), el reconeixement de named entities (NER) i l'anàlisi sintàctica. Mitjançant exemples pràctics, els participants exploren les fortaleses, limitacions i casos d'ús apropiats per a enfocaments basats en regles, ja sigui en aplicacions específiques o com a complement a models basats en dades.
- Xarxes Neuronals. Aquesta sessió té com a objectiu refrescar la comprensió dels estudiants sobre xarxes neuronals i preparar-los per a temes avançats de NLP i aprenentatge profund. S'hi repassen conceptes clau, com perceptrons, funcions d'activació, retropropagació i arquitectures fonamentals com xarxes feedforward, convolucionals (CNN) i recurrents (RNN).
- NLP amb Deep Learning. Aquesta sessió introdueix enfocaments d'aprenentatge profund per al processament del llenguatge natural, demostrant com les xarxes neuronals poden abordar tasques lingüístiques complexes com l'anàlisi de sentiments, la traducció automàtica i la resposta a preguntes. S'hi expliquen tècniques com les RNN, les xarxes de Memòria de Llarg Termini (LSTM) i les Gated Recurrent Units (GRU), destacant-ne els avantatges respecte als mètodes basats en regles, i incloent-hi demostracions pràctiques.
- Embeddings i Vectorització. Aquesta sessió cobreix la representació de dades textuals en format numèric per a aplicacions d'aprenentatge automàtic. S'hi introdueixen tècniques d'embeddings de paraules com Word2Vec i GloVe, juntament amb embeddings contextuals de models com BERT. Els estudiants aprenen com els mètodes de vectorització capturen relacions semàntiques i informació contextual, habilitant un modelatge lingüístic sofisticat i una comprensió més profunda del llenguatge.
- Transformers i IA Generativa. Aquesta sessió explora l'evolució de l'arquitectura transformer. S'hi expliquen conceptes fonamentals, com els mecanismes d'autoatenció i atenció multi-cap, juntament amb l'estructura estàndard dels transformers i els seus principis de funcionament. S'hi introdueixen models com BERT i GPT, acompanyats d'exemples pràctics de la seva aplicació en diversos dominis.
- IA Generativa i Aplicacions Empresarials. Aquesta sessió se centra en aplicacions reals de la IA generativa en contextos empresarials. Estudis de cas il·lustren com la IA pot millorar l'experiència del client, optimitzar fluxos de treball i habilitar solucions innovadores. També es debaten consideracions ètiques, reptes d'implementació i millors pràctiques per desplegar sistemes de IA generativa. A més, s'hi cobreixen arquitectures emergents com RAG (Retrieval-Augmented Generation) i Agentic RAG.
- Processament d'Imatges: De les CNN als Transformers. Aquesta sessió de cloenda cobreix els fonaments del processament d'imatges, començant per les Xarxes Neuronals Convolucionals (CNN) i el seu paper en tasques com la classificació d'imatges i la detecció d'objectes. Posteriorment, s'hi aborda la transició cap a arquitectures basades en transformers en visió per computador, demostrant com aquests models han superat les CNN tradicionals en tasques que requereixen comprensió contextual i modelatge de relacions globals dins de les imatges
L'assignatura es dóna en una sessió setmanal amb dues parts. La primera part es dedicarà a la introducció de la matèria d'una forma descriptiva així com l'explicació teòrica o conceptual dels aspectes que requereixin una justificació matemàtica o computacional. La segona serà una part pràctica, dedicada a veure la matèria en forma de demostracions o pràctiques que permetin assimilar i entendre la seva utilitat i escenaris d'aplicació.
Tipus d'avaluació | Pes | Continguts | Tipus d'activitat |
|---|---|---|---|
Assistència i participació | 20% | Tots els continguts de l'assignatura | Moderadament important |
Tasques individuals | 40% | Aproximadament 8 lliuraments | Molt important |
Examen final | 40% | Continguts complets del mòdul | Molt important |
---
Jurafsky, D., & Martin, J. H. (2022). Speech and Language Processing
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.
Vaswani, A., et al. (2017). Attention Is All You Need.
L. Tunstall, L.Von Werra & T.Wolf (2022). Natural Language Processing with Transformers: Building Language Applications with HuggingFace.
Behrouz A., Razaviyayn M., Zhong P., Mirrokni V. (2025). Nested Learning: The Illusion of Deep Learning Architectures.
---