Análisis de datos no estructurados

Descripción:

Este módulo ha sido diseñado para proporcionar a los estudiantes los recursos necesarios para aprender a extraer valor empresarial a partir de datos no estructurados. Las tecnologías abordadas se organizan en dos bloques principales: una primera parte centrada en el aprendizaje automático (machine learning) y las herramientas estadísticas asociadas, seguida de un segmento más computacional dedicado al procesamiento del lenguaje natural y de la imagen, las dos tipologías más habituales de datos no estructurados.

El enfoque es eminentemente práctico, pero cuenta con el fundamento teórico suficiente para garantizar que el estudiantado pueda asimilar y consolidar la comprensión tanto de las técnicas fundamentales como de los métodos más avanzados (state-of-the-art).

Tipo asignatura

Obligatoria no de Primer

Semestre

Segundo

Curso

Créditos

3.00

Profesores Docentes

Francesc Taxonera Isart

Conocimientos previos:

Los conocimientos previos necesarios para cursar esta asignatura incluyen un dominio del álgebra lineal, especialmente en el trabajo con matrices, y de la estadística avanzada, así como una comprensión sólida de los fundamentos de la inteligencia artificial y de las técnicas de análisis de datos. También se requiere familiaridad con la arquitectura y gestión de pipelines de Big Data, junto con un dominio avanzado del lenguaje Python y de las herramientas y entornos de desarrollo y ejecución de notebooks más habituales, como Jupyter, VS Code, Anaconda o Google Colab.

Objetivos:

El objetivo de este módulo es que el estudiante adquiera los conocimientos fundamentales y desarrolle una competencia suficiente en las diversas técnicas de procesamiento de datos no estructurados, especialmente del lenguaje. Asimismo, se pretende que adquiera los criterios necesarios para identificar los métodos más adecuados para analizar, tratar y extraer el máximo valor empresarial de este tipo de datos.

Contenidos:

Introducción a los Datos No Estructurados. Esta sesión ofrece una visión general del curso e introduce los retos asociados al tratamiento de datos no estructurados, como el texto y las imágenes, su prevalencia en escenarios reales y la importancia de las técnicas analíticas para extraer conocimientos significativos. También se introducen conceptos fundamentales de neurociencia aplicada, los pasos estándar de preprocesamiento y las herramientas esenciales para gestionar este tipo de datos.
Análisis de Coocurrencia y Visualización de Datos de Alta Dimensión con PCA. Esta sesión examina la frecuencia y los patrones de elementos emparejados (por ejemplo, palabras clave o códigos dentro de un conjunto de datos) para descubrir asociaciones y relaciones estructurales entre los componentes de los datos. También aborda la proyección de conjuntos de datos multifactoriales en espacios de menor dimensión mediante el Análisis de Componentes Principales (PCA), permitiendo una interpretación más clara de la estructura y la variabilidad de los datos en dos o tres dimensiones.
PCA (Continuación) y Aprendizaje de Variedades (Manifold Learning). Esta sesión explora una familia de algoritmos no lineales diseñados para descubrir estructuras de baja dimensión incrustadas en datos de alta dimensión. Al preservar las relaciones geométricas intrínsecas, estos métodos revelan patrones complejos que las técnicas lineales, como el PCA, no pueden capturar.
Clustering: k-means y Otros Modelos. Esta sesión se centra en algoritmos de clustering no supervisado que particionan los datos en un número predefinido de grupos. Posteriormente, se amplía el enfoque hacia modelos probabilísticos, que representan los datos como una combinación de múltiples distribuciones para capturar estructuras más flexibles y probabilidades de asignación.
Clustering (Continuación): Interpretación y Selección del Número de Clústeres. Esta sesión aborda estrategias para determinar el número óptimo de clústeres mediante criterios basados en la verosimilitud que equilibran el ajuste del modelo con su complejidad, ayudando a evitar el sobreajuste y garantizando resultados robustos e interpretables.
Revisión de los Datos No Estructurados. Esta sesión revisa los retos específicos del trabajo con datos no estructurados, particularmente lenguaje natural e imágenes, su ubicuidad en contextos reales y el papel crítico de las técnicas analíticas para derivar conocimientos accionables. Asimismo, se repasan conceptos fundamentales de neurociencia, flujos de trabajo habituales de preprocesamiento y herramientas clave para gestionar datos no estructurados.
NLP Basado en Reglas. Esta sesión se centra en métodos de procesamiento del lenguaje natural basados en reglas, que dependen de patrones y reglas lingüísticas elaboradas manualmente para analizar y manipular texto. Se cubren técnicas esenciales como la tokenización, el etiquetado gramatical (POS tagging), el reconocimiento de entidades nombradas (NER) y el análisis sintáctico. Mediante ejemplos prácticos, los participantes exploran las fortalezas, limitaciones y casos de uso apropiados para los enfoques basados en reglas, ya sea en aplicaciones específicas o como complemento de modelos basados en datos.
Redes Neuronales. Esta sesión tiene como objetivo reforzar la comprensión de los estudiantes sobre las redes neuronales y prepararlos para temas avanzados de procesamiento del lenguaje natural y aprendizaje profundo. Se revisan conceptos clave como los perceptrones, las funciones de activación, la retropropagación y arquitecturas fundamentales como las redes feedforward, las redes convolucionales (CNN) y las redes neuronales recurrentes (RNN).
NLP con Deep Learning. Esta sesión introduce enfoques de aprendizaje profundo para el procesamiento del lenguaje natural, mostrando cómo las redes neuronales pueden abordar tareas lingüísticas complejas, como el análisis de sentimientos, la traducción automática y los sistemas de respuesta a preguntas. Se explican técnicas como las RNN, las redes de Memoria a Largo Plazo (LSTM) y las Gated Recurrent Units (GRU), destacando sus ventajas respecto a los métodos basados en reglas e incluyendo demostraciones prácticas.
Embeddings y Vectorización. Esta sesión aborda la representación de datos textuales en formato numérico para aplicaciones de aprendizaje automático. Se introducen técnicas de embeddings de palabras, como Word2Vec y GloVe, junto con embeddings contextuales de modelos como BERT. Los estudiantes aprenden cómo los métodos de vectorización capturan relaciones semánticas e información contextual, posibilitando un modelado lingüístico más sofisticado y una comprensión más profunda del lenguaje.
Transformers e IA Generativa. Esta sesión explora la evolución de la arquitectura transformer. Se explican conceptos fundamentales, como los mecanismos de autoatención y atención multicabeza, junto con la estructura estándar de los transformers y sus principios de funcionamiento. Asimismo, se introducen modelos como BERT y GPT, acompañados de ejemplos prácticos de su aplicación en diversos ámbitos.
IA Generativa y Aplicaciones Empresariales. Esta sesión se centra en aplicaciones reales de la IA generativa en entornos empresariales. A través de estudios de caso se ilustra cómo la IA puede mejorar la experiencia del cliente, optimizar los flujos de trabajo y posibilitar soluciones innovadoras. También se analizan las consideraciones éticas, los retos de implementación y las mejores prácticas para el despliegue de sistemas de IA generativa. Además, se presentan arquitecturas emergentes como RAG (Retrieval-Augmented Generation) y Agentic RAG.
Procesamiento de Imágenes: de las CNN a los Transformers. Esta sesión de cierre aborda los fundamentos del procesamiento de imágenes, comenzando por las Redes Neuronales Convolucionales (CNN) y su papel en tareas como la clasificación de imágenes y la detección de objetos. Posteriormente, se presenta la transición hacia arquitecturas basadas en transformers para visión por computador, mostrando cómo estos modelos han superado a las CNN tradicionales en tareas que requieren comprensión contextual y modelado de relaciones globales dentro de las imágenes.

Metodología:

La asignatura se imparte en una sesión semanal estructurada en dos partes. La primera se dedica a la introducción de los contenidos de forma descriptiva, así como a la explicación teórica o conceptual de aquellos aspectos que requieren una justificación matemática o computacional. La segunda consiste en una parte práctica, orientada a desarrollar demostraciones o actividades prácticas (individuales o en grupo) que permitan asimilar los contenidos y comprender su utilidad y sus principales escenarios de aplicación.

La metodología integra, por tanto, el trabajo autónomo, el aprendizaje colaborativo en el aula y la evaluación formativa continua, garantizando la coherencia entre las actividades formativas, el sistema de evaluación, los criterios de evaluación y la carga de trabajo correspondiente a los créditos ECTS asignados.

Evaluación:

Para evaluar si el estudiante ha alcanzado un nivel adecuado de consecución de los objetivos de la asignatura, se utilizan distintas actividades de evaluación (con una frecuencia aproximadamente semanal). Algunas de estas actividades se realizan en grupo.

Tipo de evaluación	Peso	Contenidos	Tipo de actividad	Nivel AIAS
Asistencia y participación	20 %	Todos los contenidos de la asignatura	Moderadamente importante	1
Tareas individuales	40 %	Aproximadamente 8 entregas	Muy importante	4
Examen parcial (mid-term)	10 %	Contenidos impartidos	Moderadamente importante	1
Examen final	30 %	Todos los contenidos del módulo	Muy importante	1

Los criterios de evaluación se aplican a todo el alumnado; los estudiantes que se matriculen en régimen de recuperación también deberán asistir a clase. Cualquier situación excepcional deberá comunicarse previamente al profesorado y ser validada por el tutor académico.

La asignatura se considerará superada cuando la calificación final sea igual o superior a 5 sobre 10.

POLÍTICA DE RECUPERACIÓN

Los estudiantes que no superen la convocatoria ordinaria dispondrán de una convocatoria extraordinaria consistente en un examen de recuperación. Para poder presentarse, será necesario haber entregado todas las actividades y ejercicios pendientes. La calificación final de esta convocatoria se calculará aplicando la misma ponderación indicada anteriormente, con una nota máxima de 6 sobre 10.

Los estudiantes que no se presenten a ninguno de los exámenes de la convocatoria extraordinaria obtendrán la calificación final de NP (No Presentado).

Criterios evaluación:

Se valorará:

La correcta aplicación de los conceptos explicados en clase en la resolución de los ejercicios.
Las conclusiones derivadas de las actividades realizadas y la correcta interpretación de los resultados obtenidos.
La claridad y la estructura en la presentación de los procedimientos y las soluciones.
El uso adecuado y autorizado de la inteligencia artificial en las tareas.

Bibliografía básica:

Jurafsky, D., & Martin, J. H. (2022). Speech and Language Processing
Bird, S., Klein, E., & Loper, E. (2009). Natural Language Processing with Python: Analyzing Text with the Natural Language Toolkit.
Vaswani, A., et al. (2017). Attention Is All You Need.
L. Tunstall, L.Von Werra & T.Wolf (2022). Natural Language Processing with Transformers: Building Language Applications with HuggingFace.
Behrouz A., Razaviyayn M., Zhong P., Mirrokni V. (2025). Nested Learning: The Illusion of Deep Learning Architectures.

Material complementario:

---

Grado en Business Intelligence y Data Analytics

Conviértete en un experto en análisis de datos y toma de decisiones empresariales dentro de un ecosistema tecnológico, con excelentes oportunidades laborales

Profesores Docentes

¿Te ayudamos?

Sigue a La Salle BCN

Grado en Business Intelligence y Data Analytics

Conviértete en un experto en análisis de datos y toma de decisiones empresariales dentro de un ecosistema tecnológico, con excelentes oportunidades laborales

Análisis de datos no estructurados

Profesores Docentes

¿Te ayudamos?

Sigue a La Salle BCN

Formulario de búsqueda