Profesores Docentes
Para cursar esta asignatura, se requiere un dominio del álgebra lineal, especialmente en el trabajo con matrices, y de la estadística avanzada, así como una comprensión sólida de los fundamentos de la inteligencia artificial y de las técnicas de análisis de datos. Asimismo, es necesaria familiaridad con la arquitectura y gestión de pipelines de Big Data, junto con un dominio avanzado del lenguaje Python y de las herramientas y entornos de desarrollo y ejecución más habituales, como Jupyter Notebooks, VS Code, entornos virtuales y gestores de paquetes.
El objetivo de este módulo es que el estudiante adquiera los conocimientos fundamentales y desarrolle una competencia sólida en las diversas técnicas de procesamiento de datos no estructurados, así como los criterios necesarios para identificar los métodos más adecuados para analizar, procesar y extraer valor empresarial de este tipo de datos.
- Introducción a los Datos No Estructurados. Esta sesión ofrece una visión general del curso e introduce los desafíos asociados al tratamiento de datos no estructurados, como texto e imágenes, su prevalencia en escenarios reales y la importancia de las técnicas analíticas para extraer conocimientos significativos. También se introducen conceptos fundamentales de neurociencia aplicada, pasos estándar de preprocesamiento y herramientas esenciales para gestionar este tipo de datos.
- Análisis de Co-ocurrencia y Visualización de Datos de Alta Dimensión con PCA. Esta sesión examina la frecuencia y los patrones de elementos emparejados (por ejemplo, palabras clave o códigos dentro de un conjunto de datos) para descubrir asociaciones y relaciones estructurales entre componentes de los datos. También se aborda la proyección de conjuntos de datos multifactoriales en espacios de menor dimensión mediante Análisis de Componentes Principales (PCA), permitiendo una interpretación más clara de la estructura y la varianza de los datos en dos o tres dimensiones.
- PCA (Continuación) y Aprendizaje de Variedades (Manifold Learning). Esta sesión explora una familia de algoritmos no lineales diseñados para descubrir estructuras de baja dimensión incrustadas en datos de alta dimensión. Al preservar las relaciones geométricas intrínsecas, estos métodos revelan patrones complejos que las técnicas lineales como PCA no pueden capturar.
- Clustering: k-means y Otros Modelos. Esta sesión se centra en algoritmos de clustering no supervisado que particionan los datos en un número predefinido de grupos. Posteriormente, se amplía a enfoques probabilísticos, modelando los datos como una combinación de múltiples distribuciones para capturar estructuras más flexibles y probabilidades de asignación.
- Clustering (Continuación): Interpretación y Selección del Número de Clústeres. Esta sesión aborda estrategias para determinar el número óptimo de clústeres mediante criterios basados en la verosimilitud que equilibran el ajuste del modelo con su complejidad, ayudando a evitar el sobreajuste y garantizando resultados robustos e interpretables.
- Revisión de Datos No Estructurados. Esta sesión revisa los desafíos específicos del trabajo con datos no estructurados, particularmente lenguaje natural e imágenes, su ubicuidad en contextos reales y el papel crítico de las técnicas analíticas para derivar conocimientos accionables. También se repasan conceptos fundamentales de neurociencia, flujos de trabajo comunes de preprocesamiento y herramientas clave para gestionar datos no estructurados.
- NLP Basado en Reglas. Esta sesión se centra en métodos de procesamiento del lenguaje natural basados en reglas, que dependen de patrones y reglas lingüísticas elaboradas manualmente para analizar y manipular texto. Se cubren técnicas esenciales como tokenización, etiquetado gramatical (POS tagging), named entities recognition (NER) y análisis sintáctico. Mediante ejemplos prácticos, los participantes exploran las fortalezas, limitaciones y casos de uso apropiados para enfoques basados en reglas, ya sea en aplicaciones específicas o como complemento a modelos basados en datos.
- Redes Neuronales. Esta sesión tiene como objetivo refrescar la comprensión de los estudiantes sobre redes neuronales y prepararlos para temas avanzados de NLP y aprendizaje profundo. Se repasan conceptos clave, como perceptrones, funciones de activación, retropropagación y arquitecturas fundamentales como redes feedforward, convolucionales (CNN) y recurrentes (RNN).
- NLP con Aprendizaje Profundo. Esta sesión introduce enfoques de aprendizaje profundo para el procesamiento del lenguaje natural, demostrando cómo las redes neuronales pueden abordar tareas lingüísticas complejas como análisis de sentimientos, traducción automática y respuesta a preguntas. Se explican técnicas como RNN, redes de Memoria de Largo Plazo (LSTM) y Gated Recurrent Units (GRU), destacando sus ventajas sobre los métodos basados en reglas, e incluyendo demostraciones prácticas.
- Embeddings y Vectorización. Esta sesión cubre la representación de datos textuales en formato numérico para aplicaciones de aprendizaje automático. Se introducen técnicas de embeddings de palabras como Word2Vec y GloVe, junto con embeddings contextuales de modelos como BERT. Los estudiantes aprenden cómo los métodos de vectorización capturan relaciones semánticas e información contextual, habilitando modelado lingüístico sofisticado y una comprensión más profunda del lenguaje.
- Transformers e IA Generativa. Esta sesión explora la evolución de la arquitectura transformer. Se explican conceptos fundamentales, como los mecanismos de autoatención y atención multi-cabeza, junto con la estructura estándar de los transformers y sus principios de funcionamiento. Se introducen modelos como BERT y GPT, acompañados de ejemplos prácticos de su aplicación en diversos dominios.
- IA Generativa y Aplicaciones Empresariales. Esta sesión se centra en aplicaciones reales de la IA generativa en contextos empresariales. Estudios de caso ilustran cómo la IA puede mejorar la experiencia del cliente, optimizar flujos de trabajo y habilitar soluciones innovadoras. También se debaten consideraciones éticas, desafíos de implementación y mejores prácticas para desplegar sistemas de IA generativa. Además, se cubren arquitecturas emergentes como RAG (Retrieval-Augmented Generation) y Agentic RAG.
- Procesamiento de Imágenes: De CNNs a Transformers. Esta sesión de cierre cubre los fundamentos del procesamiento de imágenes, comenzando con Redes Neuronales Convolucionales (CNN) y su papel en tareas como clasificación de imágenes y detección de objetos. Posteriormente, se aborda la transición hacia arquitecturas basadas en transformers en visión por computador, demostrando cómo estos modelos han superado a las CNN tradicionales en tareas que requieren comprensión contextual y modelado de relaciones globales dentro de las imágenes.
Esta asignatura se da en una sesión semanal que consta de dos partes. La primera parte se dedicará a la introducción de la materia de una forma descriptiva, así como a la explicación teórica o conceptual de los aspectos que requieran una justificación matemática o computacional. La segunda será una parte práctica, dedicada a ver la materia en forma de demostraciones o prácticas que permitan asimilar y entender la utilidad y los escenarios de aplicación.
Tipo de Evaluación | Peso | Contenidos | Tipo de Actividad |
|---|---|---|---|
Asistencia y Participación | 20% | Todos los contenidos del curso | Moderadamente importante |
Tareas Individuales | 40% | Aproximadamente 8 entregas | Muy importante |
Examen Final | 40% | Contenidos completos del módulo | Muy importante |
---
Jurafsky, D., & Martin, J. H. (2022). Speech and Language Processing
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.
Vaswani, A., et al. (2017). Attention Is All You Need.
L. Tunstall, L.Von Werra & T.Wolf (2022). Natural Language Processing with Transformers: Building Language Applications with HuggingFace.
Behrouz A., Razaviyayn M., Zhong P., Mirrokni V. (2025). Nested Learning: The Illusion of Deep Learning Architectures.
---