Grado en Business Intelligence y Data Analytics

Lidera la transformación de las empresas mediante el uso y el análisis de datos.

Análisis de datos no estructurados

Descripción
Este módulo ha sido diseñado para proporcionar a los estudiantes los recursos y herramientas necesarias para aprender a extraer el máximo valor de negocio contenido en los datos no estructurados. Las tecnologías presentadas incluyen una primera parte estadística y una segunda parte más computacional dedicada al lenguaje y las imágenes, dado que son los tipos de datos no estructurados más habituales. El módulo tiene un enfoque práctico, respaldado por una teoría suficiente como para asimilar y consolidar el conocimiento de las principales técnicas y del estado del arte actual. Se asume cierto nivel de conocimiento matemático (estadístico) para algunas justificaciones teóricas puntuales, así como cierto conocimiento básico de programación en Python, dado que muchas de las tecnologías relevantes cuentan con librerías disponibles para este lenguaje. La asignatura tiene como objetivo que los estudiantes adquieran un conocimiento fundamental y el criterio suficiente para seleccionar las técnicas más adecuadas para el análisis y procesado de datos no estructurados y así extraer el máximo valor.
Tipo asignatura
Tercer - Obligatoria
Semestre
Segundo
Curso
4
Créditos
3.00
Conocimientos previos
Objetivos

1 Alcanzar un conocimiento básico de las técnicas tradicionales de procesamiento del lenguaje.
2 Comprender el funcionamiento y las posibilidades de los embeddings y los transformers.
3 Conocer los principales escenarios de aplicación de la inteligencia artificial generativa.
4 Conocer las tecnologías más adecuadas del mercado para el análisis de datos no estructurados.
5 Conocer las posibilidades de la inteligencia artificial generativa en el procesamiento de imágenes y videos.

Contenidos

1. Introducción a los datos no estructurados. Esta sesión ofrece una visión general del curso.
2. Análisis de coocurrencia: visualización de datos de alta dimensión con PCA. En esta sesión, se analizan la frecuencia y los patrones de elementos emparejados (p. ej., palabras clave y códigos dentro de un conjunto de datos) para revelar asociaciones y relaciones estructurales entre los componentes de los datos. Esta sesión también abarca las proyecciones de conjuntos de datos multi-característica en espacios de baja dimensión, lo que permite una interpretación más clara de la estructura y la varianza de los datos en dos o tres dimensiones.
3. PCA (cont.), aprendizaje de variedades. En esta sesión, se analiza una familia de algoritmos no lineales para descubrir estructuras de baja dimensión integradas en datos de alta dimensión, preservando las relaciones geométricas intrínsecas para revelar patrones complejos.
4. Agrupamiento, k-medias, modelos de mezcla gaussiana. Esta sesión se centra en un algoritmo de agrupamiento no supervisado que divide los datos en un número predefinido de clústeres y, posteriormente, se amplía mediante el modelado de datos como una combinación de múltiples distribuciones gaussianas. 5. Agrupamiento (continuación): interpretación de GMM y selección automática del número de conglomerados. En esta sesión, la selección automática del número de conglomerados se logra mediante criterios de verosimilitud (p. ej., criterios de información bayesianos), que equilibran el ajuste del modelo con la complejidad.
5. Revisión de los datos no estructurados. La sesión repasa los principales retos en la gestión de los datos no estructurados y específicamente aquellos relacionados con el lenguaje o las imágenes, su prevalencia en escenarios del mundo real y la importancia de las técnicas analíticas para la extracción de los conocimientos relevantes. También se analiza la teoría de la neurociencia y los conceptos fundamentales, los pasos comunes de preprocesamiento y las herramientas habituales para gestionar datos no estructurados.
6. NLP basado en reglas. Esta sesión se centra en los métodos de NLP que utilizan reglas y patrones para analizar y procesar texto. Se incluyen las técnicas más esenciales como la tokenización, el tagging de las Part of Speech, el reconocimiento de named entities y el parsing sintáctico. Mediante ejemplos, los estudiantes aprenden las ventajas y limitaciones del uso de reglas en NLP y su papel en aplicaciones específicas o como complementos de los modelos basados en datos.
7. Redes neuronales. Esta sesión tiene como objetivo refrescar los conocimientos adquiridos por los estudiantes sobre redes neuronales y prepararlos para temas avanzados de NLP y Deep learning; se revisarán los fundamentos de las redes neuronales y conceptos clave como perceptrones, funciones de activación, backpropagation y arquitecturas como redes feed-forward, convolucionales y/o recurrentes.
8. NLP y Deep Learning. En esta sesión, se presentarán los enfoques del NLP basados en Deep Learning y como las redes neuronales pueden ejecutar tareas lingüísticas complejas como el análisis de sentimientos, la traducción automática o la respuesta a preguntas. Se explicarán técnicas como las redes neuronales recurrentes (RNN), la memoria a corto plazo (LSTM) y las gated recurrent units (GRU), junto con sus ventajas sobre los métodos basados en reglas. Se demostrarán algunas de estas técnicas.
9. Embeddings y vectorización. En esta sesión se cubrirá la representación numérica del texto para el machine learning. Se introducirán los embeddings de Word como Word2Vec, GloVe y también embeddings contextuales de modelos como el BERT. Los estudiantes aprenderán cómo las técnicas de vectorización pueden capturar las relaciones semánticas y la información contextual, lo que permitirá una comprensión y un modelado del lenguaje muy sofisticados.
10. Transformers e IA generativa. En esta sesión se explorará la evolución de los transformers. Conceptos como la self-atention y los mecanismos de atención multi-head y también la arquitectura estándar de los transformadores para entender cómo funciona un transformador. También se presentarán modelos como el BERT, el GPT y otros ejemplos.
11. Aplicaciones de negocio con la IA generativa. Esta sesión se centra en las aplicaciones prácticas de la IA generativa en los negocios. Se presentan casos y escenarios que demuestran cómo la IA puede mejorar las experiencias de los clientes, optimizar los flujos de trabajo y permitir soluciones innovadoras. También se analizan consideraciones éticas, desafíos y mejores prácticas para implementar sistemas de IA generativa en escenarios del mundo real. En esta sesión también se tratarán los RAG y los agentic-RAG.
12. Procesado de imagen. Desde las CNN hasta los Transformers. Esta es la sesión de cierre del módulo y cubre los conceptos básicos del procesamiento de imágenes, comenzando con las redes neuronales convolucionales (CNN) y su papel en tareas como la clasificación de imágenes y la detección de objetos. Se cubre la transición a arquitecturas basadas en transformadores en visión por computadora, y se muestra cómo estos modelos han superado a las CNN tradicionales en tareas que requieren comprensión contextual. La segunda parte de la sesión quedará reservada para el examen final.

Metodología

Esta asignatura se da en una sesión semanal que consta de dos partes. La primera parte se dedicará a la introducción de la materia de una forma descriptiva, así como a la explicación teórica o conceptual de los aspectos que requieran una justificación matemática o computacional. La segunda será una parte práctica, dedicada a ver la materia en forma de demostraciones o prácticas que permitan asimilar y entender la utilidad y los escenarios de aplicación.

Evaluación

Asistencia, participación, trabajo en clase 30%
Resolución de problemas 35%
Examen - Final 35%
Los criterios de evaluación se aplican a todos los alumnos, los repetidores deben asistir a clase. Cualquier situación excepcional deberá ser comunicada previamente a los profesores y validada por el tutor.

La asignatura estará aprobada si el cómputo global de la nota es superior a 5.
RETAKE POLICY
El Retake consistirá en un examen que incluye todo el contenido de la asignatura.
La nota final máxima posible será de 6 puntos.

Criterios evaluación
Bibliografía básica

Jurafsky, D., & Martin, J. H. (2022). Speech and Language Processing
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.
Vaswani, A., et al. (2017). Attention Is All You Need.
L. Tunstall, L.Von Werra & T.Wolf (2022). Natural Language Processing with Transformers: Building Language Applications with HuggingFace.

Material complementario