Grau en Business Intelligence i Data Analytics

Lidera la transformació de les empreses mitjançant l'ús i l'anàlisi de dades.

Anàlisi de Big Data

Descripció
L'objectiu de l'Anàlisi de Big Data és ensenyar-te com utilitzar eines que puguin controlar l'allau de dades generades en l'època moderna. Això es farà mitjançant una combinació de Python, Hadoop i Spark. En finalitzar aquest curs, hauries de ser capaç de processar arxius de dades grans i manipular les dades per generar estadístiques, mètriques i gràfics.
Tipus assignatura
Tercer - Obligatoria
Semestre
Primer
Curs
3
Crèdits
6.00
Coneixements previs
Objectius

Els Resultats d'Aprenentatge d'aquesta assignatura són:
RA1. Utilitzar Python per llegir i transformar dades en diferents formats.
RA2. Generar estadístiques i mètriques bàsiques utilitzant dades en disc.
RA3. Treballar amb tasques informàtiques distribuïdes en un clúster.
RA4. Convertir dades de diverses fonts en formats d'emmagatzematge o consulta.
RA5. Preparar dades per a anàlisis estadístiques, visualització i aprenentatge automàtic.
RA6. Presentar dades en forma de visuals efectius

Continguts

- Dades massives
- Nuvol i dades massives
- Sistemes distribuïts
- Processament massiu
- Emmagatzematge massiu
- Eines d'anàlisi de dades en Python: Numpy, Pandas, Matplotlib, SciPy
- Hadoop: Que és Hadoop i l'ecosistema de Hadoop, Arquitectura de HDFS (Namenode, Datanode), MapReduce, YARN, Hbase i bases de dades NOSQL
- Spark: Arquitectura de Spark i components principals, Programacio en Spark (amb Python), Processament de dades amb Spark SQL, Streaming amb Spark

Metodologia

L'assignatura té dues sessions lectives cada setmana. Cada sessió es divideix en dues parts: en la primera, predominantment dirigida pel professor, que explica els nous continguts i la teoria; en la segona, els alumnes treballen en exercicis per consolidar els coneixements apresos. Cada dues sessions es duen a terme avaluacions individuals o en grup mitjançant proves escrites, activitats individuals o en grup i recollida d'exercicis realitzats a casa, etc.

A continuació, es posen en relació els resultats d'aprenentatge amb el contingut impartit per assolir-los.
RA1. Utilitzar Python per llegir i transformar dades en diferents formats: Desenvolupar solucions per compte propi utilitzant biblioteques estàndard com Numpy, Pandas, Matplotlib o SciPy.
RA2. Generar estadístiques i mètriques bàsiques utilitzant dades en disc: Recuperar dades de l'emmagatzematge en disc, carregar-les en un format adequat i netejar i preprocessar les dades segons sigui necessari.
Calcular estadístiques bàsiques (per exemple, mitjana, mediana, desviació estàndard) i mètriques rellevants (per exemple, mitjana, percentatge) basades en les dades preparades i presentar els resultats.
RA3. Treballar amb tasques informàtiques distribuïdes en un clúster: Configurar un entorn de clúster informàtic, que inclou la selecció de maquinari adequat, la configuració de marcs de programari i l'establiment de comunicació en xarxa entre nodes del clúster.
Desenvolupar i executar tasques informàtiques, incloses tasques com paral·lelisme de dades, distribució de tasques, tolerància a errades i gestió de recursos.
RA4. Convertir dades de diverses fonts en formats d'emmagatzematge o consulta: Identificar diverses fonts de dades, com arxius i bases de dades, i implementar procediments per extreure dades d'aquestes fonts, gestionant els desafiaments específics de format que puguin sorgir.
Desenvolupar processos de conversió per transformar i estandarditzar dades de diferents fonts en un format o estructura comú, garantint la qualitat, consistència i compatibilitat de les dades per a anàlisis o emmagatzematge posteriors.
RA5. Preparar dades per a anàlisis estadístiques, visualització i aprenentatge automàtic: Identificar i abordar valors mancants, valors atípics i inconsistències en el conjunt de dades mitjançant tècniques com la imputació, l'escalat i la codificació de variables categòriques per assegurar que les dades estiguin preparades per a l'anàlisi i la modelització.
Crear noves característiques rellevants i seleccionar variables informatives, optimitzant el conjunt de dades per a l'anàlisis estadístiques, la visualització i la formació de models d'aprenentatge automàtic, tot mantenint la integritat de la informació de les dades.
RA6. Presentar dades en forma de visuals efectius: Identificar els tipus de visualitzacions de dades més apropiats (per exemple, gràfics de barres, gràfics de dispersió, mapes de calor) en funció de la naturalesa de les dades i les idees a transmetre, tenint en compte factors com la distribució de dades, les relacions i els patrons.
Dissenyar i crear visualitzacions atractives triant colors, etiquetes i títols adequats, garantint la claredat, precisió i atractiu estètic, i després integrar aquestes visualitzacions en informes o presentacions per comunicar eficaçment les idees basades en dades a les parts interessades.

Avaluació

Amb la finalitat d'avaluar si l'alumne ha assolit en un grau adequat els objectius perseguits a l'assignatura es fan servir diferents activitats d'avaluació (amb una freqüència aprox. setmanal).
A la següent taula es mostra el percentatge d'avaluació de cada activitat sobre la nota final:

MidTerm 40%:
- 15%: TASQUES INDIVIDUALS
- 25%: TASQUES EN GRUP
Examen Final 60%:
- 30%: TASQUES EN GRUP
- 30%: EXAMEN FINAL (CONVOCATÒRIA ORDINÀRIA)
Els alumnes que no aprovin la convocatòria ordinària tindran una Convocatòria Extraordinària al juliol. Els alumnes que no es presentin a cap dels exàmens de recuperació tindran una nota final de l'assignatura NP (No Presentat) en la convocatòria extraordinària.

Objectius de l'avaluació contínua:
- L'objectiu principal és ajudar els alumnes a portar al dia l'assignatura i aconseguir un bon mètode de treball, de manera que els ajudi a assimilar la matèria, impartida de forma progressiva, i en l'obtenció de bons resultats acadèmics.
- També permet valorar la feina que fa l'alumne dia a dia, sense que la seva nota depengui únicament dels exàmens realitzats durant els semestres del curs acadèmic.
- De cara a professor, ajuda a tenir més informació de la feina feta pels alumnes i un millor coneixement d'aquests, tant en l'àmbit acadèmic com personal.

Intel·ligència Artificial: no es permet l'ús d'eines de IA (ChatGPT, etc.). Es considerarà com plagia i serà sancionat amb un 0 i es portarà al coneixement del director acadèmic per possibles addicionals sancions.

Política de recuperació de l'examen: en cas de suspendre el curs en general, tindreu l'oportunitat de tornar a fer un examen, sempre que s'hagin presentat els 2 treballs i el projecte. La nota final no podrà superar un 6.
La nota serà: 40% l'examen de recuperació i 60% l'avaluació contínua obtinguda durant el curs (2 treballs i el projecte).

Criteris avaluació
Bibliografia bàsica

Marin, I., Shukla, A., & VK, S. (2019). Big Data Analysis with Python. Packt Publishing.

Material complementari