Els Resultats d'Aprenentatge d'aquesta assignatura són:
RA1. Utilitzar Python per llegir i transformar dades en diferents formats.
RA2. Generar estadístiques i mètriques bàsiques utilitzant dades en disc.
RA3. Treballar amb tasques informàtiques distribuïdes en un clúster.
RA4. Convertir dades de diverses fonts en formats d'emmagatzematge o consulta.
RA5. Preparar dades per a anàlisis estadístiques, visualització i aprenentatge automàtic.
RA6. Presentar dades en forma de visuals efectius
- Dades massives
- Nuvol i dades massives
- Sistemes distribuïts
- Processament massiu
- Emmagatzematge massiu
- Eines d'anàlisi de dades en Python: Numpy, Pandas, Matplotlib, SciPy
- Hadoop: Que és Hadoop i l'ecosistema de Hadoop, Arquitectura de HDFS (Namenode, Datanode), MapReduce, YARN, Hbase i bases de dades NOSQL
- Spark: Arquitectura de Spark i components principals, Programacio en Spark (amb Python), Processament de dades amb Spark SQL, Streaming amb Spark
L'assignatura té dues sessions lectives cada setmana. Cada sessió es divideix en dues parts: en la primera, predominantment dirigida pel professor, que explica els nous continguts i la teoria; en la segona, els alumnes treballen en exercicis per consolidar els coneixements apresos. Cada dues sessions es duen a terme avaluacions individuals o en grup mitjançant proves escrites, activitats individuals o en grup i recollida d'exercicis realitzats a casa, etc.
A continuació, es posen en relació els resultats d'aprenentatge amb el contingut impartit per assolir-los.
RA1. Utilitzar Python per llegir i transformar dades en diferents formats: Desenvolupar solucions per compte propi utilitzant biblioteques estàndard com Numpy, Pandas, Matplotlib o SciPy.
RA2. Generar estadístiques i mètriques bàsiques utilitzant dades en disc: Recuperar dades de l'emmagatzematge en disc, carregar-les en un format adequat i netejar i preprocessar les dades segons sigui necessari.
Calcular estadístiques bàsiques (per exemple, mitjana, mediana, desviació estàndard) i mètriques rellevants (per exemple, mitjana, percentatge) basades en les dades preparades i presentar els resultats.
RA3. Treballar amb tasques informàtiques distribuïdes en un clúster: Configurar un entorn de clúster informàtic, que inclou la selecció de maquinari adequat, la configuració de marcs de programari i l'establiment de comunicació en xarxa entre nodes del clúster.
Desenvolupar i executar tasques informàtiques, incloses tasques com paral·lelisme de dades, distribució de tasques, tolerància a errades i gestió de recursos.
RA4. Convertir dades de diverses fonts en formats d'emmagatzematge o consulta: Identificar diverses fonts de dades, com arxius i bases de dades, i implementar procediments per extreure dades d'aquestes fonts, gestionant els desafiaments específics de format que puguin sorgir.
Desenvolupar processos de conversió per transformar i estandarditzar dades de diferents fonts en un format o estructura comú, garantint la qualitat, consistència i compatibilitat de les dades per a anàlisis o emmagatzematge posteriors.
RA5. Preparar dades per a anàlisis estadístiques, visualització i aprenentatge automàtic: Identificar i abordar valors mancants, valors atípics i inconsistències en el conjunt de dades mitjançant tècniques com la imputació, l'escalat i la codificació de variables categòriques per assegurar que les dades estiguin preparades per a l'anàlisi i la modelització.
Crear noves característiques rellevants i seleccionar variables informatives, optimitzant el conjunt de dades per a l'anàlisis estadístiques, la visualització i la formació de models d'aprenentatge automàtic, tot mantenint la integritat de la informació de les dades.
RA6. Presentar dades en forma de visuals efectius: Identificar els tipus de visualitzacions de dades més apropiats (per exemple, gràfics de barres, gràfics de dispersió, mapes de calor) en funció de la naturalesa de les dades i les idees a transmetre, tenint en compte factors com la distribució de dades, les relacions i els patrons.
Dissenyar i crear visualitzacions atractives triant colors, etiquetes i títols adequats, garantint la claredat, precisió i atractiu estètic, i després integrar aquestes visualitzacions en informes o presentacions per comunicar eficaçment les idees basades en dades a les parts interessades.
Amb la finalitat d'avaluar si l'alumne ha assolit en un grau adequat els objectius perseguits a l'assignatura es fan servir diferents activitats d'avaluació (amb una freqüència aprox. setmanal).
A la següent taula es mostra el percentatge d'avaluació de cada activitat sobre la nota final:
MidTerm 40%:
- 15%: TASQUES INDIVIDUALS
- 25%: TASQUES EN GRUP
Examen Final 60%:
- 30%: TASQUES EN GRUP
- 30%: EXAMEN FINAL (CONVOCATÒRIA ORDINÀRIA)
Els alumnes que no aprovin la convocatòria ordinària tindran una Convocatòria Extraordinària al juliol. Els alumnes que no es presentin a cap dels exàmens de recuperació tindran una nota final de l'assignatura NP (No Presentat) en la convocatòria extraordinària.
Objectius de l'avaluació contínua:
- L'objectiu principal és ajudar els alumnes a portar al dia l'assignatura i aconseguir un bon mètode de treball, de manera que els ajudi a assimilar la matèria, impartida de forma progressiva, i en l'obtenció de bons resultats acadèmics.
- També permet valorar la feina que fa l'alumne dia a dia, sense que la seva nota depengui únicament dels exàmens realitzats durant els semestres del curs acadèmic.
- De cara a professor, ajuda a tenir més informació de la feina feta pels alumnes i un millor coneixement d'aquests, tant en l'àmbit acadèmic com personal.
Intel·ligència Artificial: no es permet l'ús d'eines de IA (ChatGPT, etc.). Es considerarà com plagia i serà sancionat amb un 0 i es portarà al coneixement del director acadèmic per possibles addicionals sancions.
Política de recuperació de l'examen: en cas de suspendre el curs en general, tindreu l'oportunitat de tornar a fer un examen, sempre que s'hagin presentat els 2 treballs i el projecte. La nota final no podrà superar un 6.
La nota serà: 40% l'examen de recuperació i 60% l'avaluació contínua obtinguda durant el curs (2 treballs i el projecte).
Marin, I., Shukla, A., & VK, S. (2019). Big Data Analysis with Python. Packt Publishing.