Anàlisi de dades no estructurades

Descripció:

Aquest mòdul ha estat dissenyat per proporcionar als estudiants els recursos necessaris per aprendre a extreure valor empresarial a partir de dades no estructurades. Les tecnologies que s'hi aborden s'organitzen en dos blocs principals: una primera part centrada en l'aprenentatge automàtic (machine learning) i les eines estadístiques associades, seguida d'un segment més computacional dedicat al processament del llenguatge natural i de la imatge, les dues tipologies més habituals de dades no estructurades.

L'enfocament és eminentment pràctic, però compta amb el fonament teòric suficient per garantir que l'estudiantat pugui assimilar i consolidar la comprensió tant de les tècniques fonamentals com dels mètodes més avançats (state-of-the-art).

Tipus assignatura

Obligatoria no de Primer

Semestre

Segon

Curs

Crèdits

3.00

Professors Docents

Francesc Taxonera Isart

Coneixements previs:

Els coneixements previs necessaris per cursar aquesta assignatura inclouen un domini de l'àlgebra lineal, especialment en el treball amb matrius, i de l'estadística avançada, així com una comprensió sòlida dels fonaments de la intel·ligència artificial i de les tècniques d'anàlisi de dades; també es requereix familiaritat amb l'arquitectura i gestió de pipelines de Big Data, juntament amb un domini avançat del llenguatge Python i de les eines i entorns de desenvolupament i execució de Notebooks més habituals, com ara Jupyter, VS Code, Anaconda o Google Colab

Objectius:

L'objectiu d'aquest mòdul és que l'estudiant adquireixi els coneixements fonamentals i desenvolupi una competència suficient en les diverses tècniques de processament de dades no estructurades, especialment el llenguatge. Així com els criteris necessaris per identificar els mètodes més adequats per analitzar, tractar i extreure el màxim valor empresarial d'aquest tipus de dades.

Continguts:

Introducció a les Dades No Estructurades. Aquesta sessió ofereix una visió general del curs i introdueix els reptes associats al tractament de dades no estructurades, com ara text i imatges, la seva prevalença en escenaris reals i la importància de les tècniques analítiques per extreure'n coneixements significatius. També s'hi introdueixen conceptes fonamentals de neurociència aplicada, passos estàndard de preprocessament i eines essencials per gestionar aquest tipus de dades.
Anàlisi de Co-ocurrència i Visualització de Dades d'Alta Dimensió amb PCA. Aquesta sessió examina la freqüència i els patrons d'elements emparellats (per exemple, paraules clau o codis dins d'un conjunt de dades) per descobrir associacions i relacions estructurals entre components de les dades. També s'hi aborda la projecció de conjunts de dades multifactorials en espais de menor dimensió mitjançant l'Anàlisi de Components Principals (PCA), permetent una interpretació més clara de l'estructura i la variància de les dades en dues o tres dimensions.
PCA (Continuació) i Aprenentatge de Varietats (Manifold Learning). Aquesta sessió explora una família d'algorismes no lineals dissenyats per descobrir estructures de baixa dimensió incrustades en dades d'alta dimensió. En preservar les relacions geomètriques intrínseques, aquests mètodes revelen patrons complexos que les tècniques lineals com el PCA no poden capturar.
Clústering: k-means i Altres Models. Aquesta sessió se centra en algorismes de clústering no supervisat que particionen les dades en un nombre predefinit de grups. Posteriorment, s'amplia a enfocaments probabilístics, modelant les dades com una combinació de múltiples distribucions per capturar estructures més flexibles i probabilitats d'assignació.
Clústering (Continuació): Interpretació i Selecció del Nombre de Clústers. Aquesta sessió aborda estratègies per determinar el nombre òptim de clústers mitjançant criteris basats en la versemblança que equilibren l'ajust del model amb la seva complexitat, ajudant a evitar el sobreajustament i garantint resultats robustos i interpretables.
Revisió de Dades No Estructurades. Aquesta sessió revisa els reptes específics del treball amb dades no estructurades, particularment llenguatge natural i imatges, la seva ubiqüitat en contextos reals i el paper crític de les tècniques analítiques per derivar coneixements accionables. També es repassen conceptes fonamentals de neurociència, fluxos de treball comuns de preprocessament i eines clau per gestionar dades no estructurades
NLP Basat en Regles. Aquesta sessió se centra en mètodes de processament del llenguatge natural basats en regles, que depenen de patrons i regles lingüístiques elaborades manualment per analitzar i manipular text. S'hi cobreixen tècniques essencials com la tokenització, l'etiquetatge gramatical (POS tagging), el reconeixement de named entities (NER) i l'anàlisi sintàctica. Mitjançant exemples pràctics, els participants exploren les fortaleses, limitacions i casos d'ús apropiats per a enfocaments basats en regles, ja sigui en aplicacions específiques o com a complement a models basats en dades.
Xarxes Neuronals. Aquesta sessió té com a objectiu refrescar la comprensió dels estudiants sobre xarxes neuronals i preparar-los per a temes avançats de NLP i aprenentatge profund. S'hi repassen conceptes clau, com perceptrons, funcions d'activació, retropropagació i arquitectures fonamentals com xarxes feedforward, convolucionals (CNN) i recurrents (RNN).
NLP amb Deep Learning. Aquesta sessió introdueix enfocaments d'aprenentatge profund per al processament del llenguatge natural, demostrant com les xarxes neuronals poden abordar tasques lingüístiques complexes com l'anàlisi de sentiments, la traducció automàtica i la resposta a preguntes. S'hi expliquen tècniques com les RNN, les xarxes de Memòria de Llarg Termini (LSTM) i les Gated Recurrent Units (GRU), destacant-ne els avantatges respecte als mètodes basats en regles, i incloent-hi demostracions pràctiques.
Embeddings i Vectorització. Aquesta sessió cobreix la representació de dades textuals en format numèric per a aplicacions d'aprenentatge automàtic. S'hi introdueixen tècniques d'embeddings de paraules com Word2Vec i GloVe, juntament amb embeddings contextuals de models com BERT. Els estudiants aprenen com els mètodes de vectorització capturen relacions semàntiques i informació contextual, habilitant un modelatge lingüístic sofisticat i una comprensió més profunda del llenguatge.
Transformers i IA Generativa. Aquesta sessió explora l'evolució de l'arquitectura transformer. S'hi expliquen conceptes fonamentals, com els mecanismes d'autoatenció i atenció multi-cap, juntament amb l'estructura estàndard dels transformers i els seus principis de funcionament. S'hi introdueixen models com BERT i GPT, acompanyats d'exemples pràctics de la seva aplicació en diversos dominis.
IA Generativa i Aplicacions Empresarials. Aquesta sessió se centra en aplicacions reals de la IA generativa en contextos empresarials. Estudis de cas il·lustren com la IA pot millorar l'experiència del client, optimitzar fluxos de treball i habilitar solucions innovadores. També es debaten consideracions ètiques, reptes d'implementació i millors pràctiques per desplegar sistemes de IA generativa. A més, s'hi cobreixen arquitectures emergents com RAG (Retrieval-Augmented Generation) i Agentic RAG.
Processament d'Imatges: De les CNN als Transformers. Aquesta sessió de cloenda cobreix els fonaments del processament d'imatges, començant per les Xarxes Neuronals Convolucionals (CNN) i el seu paper en tasques com la classificació d'imatges i la detecció d'objectes. Posteriorment, s'hi aborda la transició cap a arquitectures basades en transformers en visió per computador, demostrant com aquests models han superat les CNN tradicionals en tasques que requereixen comprensió contextual i modelatge de relacions globals dins de les imatges

Metodologia:

L'assignatura es dóna en una sessió setmanal amb dues parts. La primera part es dedicarà a la introducció de la matèria d'una forma descriptiva així com l'explicació teòrica o conceptual dels aspectes que requereixin una justificació matemàtica o computacional. La segona serà una part pràctica, dedicada a veure la matèria en forma de demostracions o pràctiques (individuals o en grup) que permetin assimilar i entendre la seva utilitat i escenaris d'aplicació.

La metodologia integra, per tant, treball autònom, aprenentatge col·laboratiu a l’aula i avaluació formativa contínua, assegurant la coherència entre activitats formatives, sistema d’avaluació, criteris d’avaluació i càrrega de treball corresponent als crèdits ECTS assignats.

Avaluació:

Per avaluar si l'estudiant ha assolit una puntuació adequada per als objectius perseguits en
l'assignatura, s'utilitzen diferents activitats d'avaluació (amb una freqüència aproximadament setmanal). Algunes de les activitats són en grup.

Tipus d'avaluació	Pes	Continguts	Tipus d'activitat	Nivell AIAS
Assistència i participació	20%	Tots els continguts de l'assignatura	Moderadament important	1
Tasques individuals	40%	Aproximadament 8 lliuraments	Molt important	4
Examen mid-term	10%	Contiguts donats	Moderadament important	1
Examen final	30%	Continguts complets del mòdul	Molt important	1

Els criteris d'avaluació s'apliquen a tot l'alumnat; els estudiants que es matriculin en règim de recuperació també han d'assistir a classe. Qualsevol situació excepcional ha de ser comunicada prèviament al professorat i validada pel tutor acadèmic.

L'assignatura es considerarà superada quan la qualificació final sigui igual o superior a 5 sobre 10.

POLÍTICA DE RECUPERACIÓ

Els estudiants que no superin la convocatòria ordinària tindran una Convocatòria Extraordinària en forma d'un examen de recuperació. Per presentar-se, serà necessari haver entregat totes les activitats i exercicis que estiguin pendents. La nota final d'aquesta convocatòria serà calculada segons el criteri de pesos anterior amb un topall de 6.
Els estudiants que no es presentin a cap dels exàmens restants obtindran una qualificació final de l'assignatura NP (No Presentat) en la convocatòria extraordinària.

Criteris avaluació:

Es valorarà:
La correcta aplicació dels conceptes explicats a classe en els exercicis.
Les conclusions derivades de les activitats dutes a terme i la correcta interpretació dels resultats obtinguts
La claredat i estructura en la presentació dels procediments i solucions.
L'ús adequat i autoritzat de la intel·ligència artificial en les tasques.

Bibliografia bàsica:

Jurafsky, D., & Martin, J. H. (2022). Speech and Language Processing
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.
Vaswani, A., et al. (2017). Attention Is All You Need.
L. Tunstall, L.Von Werra & T.Wolf (2022). Natural Language Processing with Transformers: Building Language Applications with HuggingFace.
Behrouz A., Razaviyayn M., Zhong P., Mirrokni V. (2025). Nested Learning: The Illusion of Deep Learning Architectures.

Material complementari:

---

Grau en Business Intelligence i Data Analytics

Converteix-te en un expert en anàlisi de dades i presa de decisions empresarials en un ecosistema tecnològic, amb grans oportunitats laborals

Professors Docents

T’ajudem?

Segueix La Salle BCN

Grau en Business Intelligence i Data Analytics

Converteix-te en un expert en anàlisi de dades i presa de decisions empresarials en un ecosistema tecnològic, amb grans oportunitats laborals

Anàlisi de dades no estructurades

Professors Docents

T’ajudem?

Segueix La Salle BCN

Formulari de cerca