Grado en Business Intelligence y Data Analytics

Lidera la transformación de las empresas mediante el uso y el análisis de datos.

Análisis de Big Data

Descripción
El objetivo del Análisis de Big Data es enseñarte cómo utilizar herramientas que pueden controlar la avalancha de datos generados en la época moderna. Esto se logrará mediante una combinación de Python, Hadoop y Spark. Al finalizar este curso, deberías ser capaz de procesar archivos de datos grandes y manipular datos para generar estadísticas, métricas y gráficos.
Tipo asignatura
Tercer - Obligatoria
Semestre
Primero
Curso
3
Créditos
6.00

Profesores Titulares

Profesor/a

Profesores Docentes

Conocimientos previos
Objetivos

Los Resultados de Aprendizaje de esta asignatura son:

RA1. Utilizar Python para leer y transformar datos en diferentes formatos.
RA2. Generar estadísticas y métricas básicas utilizando datos en disco.
RA3. Trabajar con tareas informáticas distribuidas en un clúster.
RA4. Convertir datos de diversas fuentes en formatos de almacenamiento o consulta.
RA5. Preparar datos para análisis estadístico, visualización y aprendizaje automático.
RA6. Presentar datos en forma de visuales efectivos.

Contenidos

- Big data
- Nube y big data
- Sistemas distribuidos
- Procesamiento masivo
- Almacenamiento masivo
- Herramientas de Analisis de datos en Python: Numpy, Pandas, Matplotlib, SciPy
- Hadoop: Que es Hadoop y el ecosistema de Hadoop, Arquitectura de HDFS (Namenode, Datanode), MapReduce, YARN, Hbase y Base de datos NOSQL
- Spark: Arquitectura de Spark y componentes principales, Programacion en Spark, Procesamiento de datos con Spark SQL, Streaming en Spark

Metodología

La asignatura tiene dos sesiones lectivas cada semana. Cada sesión se divide en dos partes: en la primera, predominantemente dirigida por el profesor, que explica los nuevos contenidos y la teoría; en la segunda, los alumnos trabajan en ejercicios para consolidar los conocimientos aprendidos. Cada dos sesiones se realizan evaluaciones individuales o en grupo mediante pruebas escritas, actividades individuales o en grupo y recogida de ejercicios realizados en casa, etc.

A continuación, se ponen en relación los resultados de aprendizaje con el contenido impartido para alcanzarlos.
RA1. Utilizar Python para leer y transformar datos en diferentes formatos: Desarrollar soluciones por sí mismo utilizando bibliotecas estándar como Numpy, Pandas, Matplotlib o SciPy.
RA2. Generar estadísticas y métricas básicas utilizando datos en disco: Recuperar datos de almacenamiento en disco, cargarlos en un formato adecuado, y limpiar y pre procesar los datos según sea necesario.
Calcular estadísticas básicas (por ejemplo, media, mediana, desviación estándar) y métricas relevantes (por ejemplo, promedio, porcentaje) basadas en los datos preparados, y presentar los hallazgos.
RA3. Trabajar con tareas informáticas distribuidas en un clúster: Configurar un entorno de clúster informático, que incluye la selección de hardware adecuado, la configuración de marcos de software y el establecimiento de comunicación en red entre nodos del clúster.
Desarrollar y ejecutar tareas informáticas, incluidas tareas como paralelismo de datos, distribución de tareas, tolerancia a fallos y gestión de recursos.
RA4. Convertir datos de diversas fuentes en formatos de almacenamiento o consulta: Identificar diversas fuentes de datos, como archivos y bases de datos, e implementar procedimientos para extraer datos de estas fuentes, gestionando los desafíos específicos de formato que puedan surgir.
Desarrollar procesos de conversión para transformar y estandarizar datos de diferentes fuentes en un formato o estructura común, garantizando la calidad, consistencia y compatibilidad de los datos para análisis o almacenamiento posteriores.
RA5. Preparar datos para análisis estadístico, visualización y aprendizaje automático: Identificar y abordar valores faltantes, valores atípicos e inconsistencias en el conjunto de datos mediante técnicas como la imputación, el escalado y la codificación de variables categóricas para asegurar que los datos estén listos para su análisis y modelado.
Crear nuevas características relevantes y seleccionar variables informativas, optimizando el conjunto de datos para el análisis estadístico, la visualización y el entrenamiento de modelos de aprendizaje automático, manteniendo al mismo tiempo la integridad de la información de los datos.
RA6. Presentar datos en forma de visuales efectivos: Identificar los tipos de visualizaciones de datos más apropiados (por ejemplo, gráficos de barras, gráficos de dispersión, mapas de calor) en función de la naturaleza de los datos y las ideas a transmitir, teniendo en cuenta factores como la distribución de datos, las relaciones y los patrones.
Diseñar y crear visualizaciones atractivas, eligiendo colores, etiquetas y títulos adecuados, garantizando la claridad, precisión y atractivo estético, y luego integrar estas visualizaciones en informes o presentaciones para comunicar eficazmente las ideas basadas en datos a las partes interesadas

Evaluación

Para evaluar si el alumno ha alcanzado en un grado adecuado los objetivos perseguidos en la asignatura, se utilizan diferentes actividades de evaluación (con una frecuencia de aproximadamente semanal).
La siguiente tabla muestra el porcentaje de evaluación de cada actividad sobre la nota final:

MidTerm 40%:
- 15%: TAREAS INDIVIDUALES
- 25%: TAREAS EN GRUPO
Examen Final 60%:
- 30%: TAREAS EN GRUPO
- 30%: EXAMEN FINAL (CONVOCATORIA ORDINARIA)
Los estudiantes que no pasen la convocatoria regular tendrán una Convocatoria Extraordinaria en julio. Los alumnos que no realicen ninguno de los exámenes de descanso tendrán una nota final de la asignatura NP (No Presentada) en la convocatoria extraordinaria.

Objetivos de la evaluación continua:
- El objetivo principal es ayudar a los alumnos a actualizar la asignatura y conseguir un buen método de trabajo, de manera que les ayude a asimilar la asignatura, impartida de forma progresiva, y en la obtención de buenos resultados académicos.
- También permite valorar el trabajo que realiza el alumno día a día, sin que su nota dependa únicamente de los exámenes realizados durante los semestres del curso académico.
- Como docente, ayuda tener más información sobre el trabajo realizado por los alumnos y un mejor conocimiento de los mismos, tanto académica como personalmente.

Inteligencia Artificial:

Política de repetición del examen: si no aprueba el curso en general, tendrá la oportunidad de volver a realizar un examen, siempre que se hayan presentado las tareas y los proyectos. La nota no superará un 6/10.
La nota será entonces: 40% la repetición de examen y 60% la evaluación continua obtenida durante el curso.

Criterios evaluación
Bibliografía básica

Marin, I., Shukla, A., & VK, S. (2019). Big Data Analysis with Python. Packt Publishing.

Material complementario