Postgrado Online en Data Science e Inteligencia Artificial

Sé el motor que impulsa las decisiones estratégicas del futuro: domina los datos y la IA con La Salle-URL

Minería de datos

Descripción
La asignatura realiza una introducción a la minería de datos. La minería de datos es la disciplina que estudia la extracción de información útil de bases de datos. Hoy en día, las técnicas de minería de datos se usan en muchas aplicaciones diversas, tales como la predicción de fraude en transacciones de tarjetas de crédito, la segmentación de clientes para estudios de marketing o el diagnóstico médico. En este sentido, la minería de datos abarca un campo multi-disciplinar y de gran interés práctico.
Tipo asignatura
Tercer - Obligatoria
Semestre
Primero
Curso
4
Créditos
5.00
Conocimientos previos

Los estudiantes deberían tener un sólido entendimiento de álgebra lineal y programación antes de cursar la asignatura. Los requisitos mínimos en estas áreas son los siguientes:

Álgebra lineal:
- Conocimiento de operaciones con vectores, como adición, sustracción, multiplicación escalar y producto escalar.
- Comprensión de operaciones con matrices, incluyendo multiplicación, adición y sustracción de matrices.
- Familiaridad con conceptos como transposición de matrices, inversas, determinantes y valores propios/vectores propios.
- Comprensión de transformaciones lineales, incluyendo su representación mediante matrices.
- Conocimiento de resolución de sistemas de ecuaciones lineales y factorizaciones de matrices.

Programación:
- Conocimiento de programación orientada a objetos.
- Comprensión de conceptos fundamentales de programación, incluyendo variables, tipos de datos, control de flujo (por ejemplo, bucles, condicionales), funciones y manejo de errores.
- Experiencia en la escritura y ejecución de código para manipular estructuras de datos, como arrays, listas y diccionarios.
- Familiaridad con operaciones básicas de entrada/salida de archivos.

Objetivos

Al finalizar el curso, el alumno es capaz de:

- Diseñar e implementar un proceso de minería de datos para aplicaciones reales.
- Usar herramientas de data warehouse y OLAP para realizar un proceso de análisis de minería de datos.
- Evaluar los resultados de la minería de datos, analizarlo gráficamente y usar el conocimiento extraído de este análisis.
- Comunicar con expertos y no expertos la aplicación y uso de técnicas de minería de datos.
- Describir los algoritmos principales de minería de datos e implementarlos, adaptándolos a la aplicación requerida y mejorando, si es necesario, su rendimiento y eficiencia.

En resumen, el estudiante que termina la asignatura con éxito, es capaz de trabajar como analista de minería de datos, usando herramientas existentes en el mercado, así como desarrollar proyectos de minería de datos que impliquen el desarrollo del proyecto en todas sus fases.

Contenidos

El temario de la asignatura es el siguiente:

1. MapReduce
2. PageRank
3. Instance Based Learning (IBL)
4. Optimización de Mínimos Cuadrados y Gradiente
5. Otros Métodos de Optimización Bioinspirados (Simulated Annealing y Algoritmos Genéticos)
6. Preprocesado de Datos
7. Selección de Atributos y Regularización
8. Evaluación de Modelos de DM
9. Aprendizaje Inductivo
10. Reglas de Asociación
11. Boosting / Bagging y otros Ensemble Methods
12. Aprendizaje Bayesiano
13. Redes Neuronales

Temario adicional:
14. Clustering y Aprendizaje No supervisado.
15. Máquinas de Soporte Vectorial (SVM)

Metodología

La asignatura se imparte según la metodología Problem Based Learning (PBL). Esta metodología fomenta el aprendizaje del alumno mediante la definición de un problema que el alumno debe resolver en equipo a lo largo de la asignatura. El estudiante no asiste a clases magistrales que anticipan el conocimiento sobre la materia, sino que el estudiante va construyendo este conocimiento mediante la solución guiada a un problema debidamente planteado.

Los beneficios de esta metodología son la consolidación del aprendizaje por parte de los alumnos y la mejor preparación para el mundo laboral, dado que el alumno tiene que trabajar en equipo y desarrollar competencias de gestión del proyecto, habilidades comunicativas, etc. En esta metodología, no hay una separación clara entre los conceptos de teoría y práctica; más bien, los dos conceptos se entrelazan continuamente. El estudiante desarrolla un proyecto para el cual necesita adquirir unos conocimientos de forma incremental.

La implementación concreta de la metodología PBL en la asignatura es la siguiente:

- Para cada gran tema de los expuestos anteriormente, se plantea un problema a resolver. Esto se aplica para los temas 2,3,4 y 5 del temario.

- El estudiante tiene que resolver el problema planteado en equipo. Para la resolución del problema dispondrá: de la ayuda y guía del profesor, y un conjunto de materiales disponibles (apuntes, libros, artículos). Muchos de estos materiales estarán seleccionados previamente por el profesor. Otros materiales podrán ser incorporados por el propio alumno, fomentando así que el estudiante adquiera habilidades de aprendizaje autónomo.

- No se realizarán clases magistrales al estilo tradicional, pero sí hay sesiones de soporte al desarrollos del proyecto que garantizan: 1) que el proyecto se realice de forma adecuada por cada equipo, 2) que no hay vacíos de conocimiento en los conceptos necesarios que tienen que adquirir los alumnos.

- Dependiendo del número de estudiantes en la clase, se dimensionarán los equipos y la complejidad del proyecto asignado a cada equipo.

- Es posible que por cada tema haya distintos problemas a resolver por cada equipo.

- Al finalizar cada proyecto, cada equipo presenta los resultados obtenidos y éstos son discutidos por el resto de compañeros de la clase.

Evaluación

La evaluación está adaptada a la metodología PBL. Cada alumno tendrá una nota global de los proyectos, que será la media de los miniproyectos entregados. La nota de cada proyecto será la media ponderada entre la nota global del proyecto y una nota individual (que dependerá de su grado de participación en el desarrollo del proyecto). Al finalizar el curso, el alumno tendrá que defender un papel científico teniendo en cuenta los conocimientos generales de la materia.

ExamenesParciales | Puntos de Control (2 Controles Test) * 30%
Prácticas (3 Prácticas) * 40%
Defensa Paper Científico * 30%

Criterios evaluación

Consultar el apartado anterior.

Bibliografía básica

Instance-Based Learning Algorithms (Aha et al., 1991)
D.W. Aha; D. Kibler; M.K. Albert

"Instance-Based Learning Algorithms"
Machine Learning, 6, 37-66 (1991)
Kluwer Academic Publishers

Case-Based Reasoning (Article Aamodt & Plaza, 1994)
A. Aamodt & E. Plaza
"Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches"

AI Communications. IOS Press, Vol. 7: 1, pp. 39-59. (1994)
Improved Heterogeneous Distance Functions (Wilson et al., 1997) Fitxer
D.R. Wilson and T.R. Martinez.

"Improved Heterogeneous Distance Functions "
Journal of Artificial Intelligence Research 6 (1997) 1-34
Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions URL
Alexandr, A., Indyk, P.,
Foundations of Computer Science, 2006. FOCS ‘06. 47th Annual IEEE Symposium

Five Balltree Construction Algorithms
Omohundro, S.M.,
International Computer Science Institute Technical Report (1989)

LSH Forest: Self-Tuning Indexes for Similarity Search
Bawa, M., Condie, T., Ganesan
P., WWW ‘05 Proceedings of the 14th international conference on World Wide Web Pages 651-660

Andrew NG – Stanford Lecture Notes
Machine Learning for Natural Language Processing
Algorithms in Nature (CMU) - Optimization and Search
Algorithms in Nature (CMU) - Genetic Algorithms
Simulated Annealing - Kirill Netreba

Lecture Notes on Perception, Sensing & Instrumentation
Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions
Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp
SIAM Rev., Survey and Review section, Vol. 53, num. 2, pp. 217-288, June 2011

Matrix decompositions & latent semantic indexing
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press, chapter 18: Matrix decompositions & latent semantic indexing

Algorisme ID3 (Quinlan, 1986) Fitxer
J.R. Quinlan
"Induction of Decision Trees"
Machine Learning 1:81-106
Kluwer Academic Publishers
(1986)

Algorisme C4.5 (Quinlan, 1996) Fitxer
J.R. Quinlan
"Improved Use of Continuos Attributes in C4.5"

Journal of Artificial Intelligence Research 4:77-90
(1996)

Association Rules (R. Agrawal et al., 1993) Fitxer
R. Agrawal, T. Imielinski and A. Swami

"Mining association rules between sets of items in large databases"
Proceedings of the 1993 ACM SIGMOD International Conference on Management of data (SIGMOD'93), pp. 207-216
ISBN:0-89791-592-5
(1993)
http://dl.acm.org/citation.cfmac?id=170072

Algorisme APRIORI (R. Agrawal & R. Srikant, 1994) Fitxer
R. Agrawal & R. Srikant
"Fast Algorithms for Mining Association Rules"

Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499
Morgan Kaufmann Publishers Inc. San Francisco, CA, USA
ISBN:1-55860-153-8
(1994)

Bankruptcy forecasting: An empirical comparison of AdaBoost and neural networks Fitxer
Esteban Alfaro, Noelia García, Matías Gámez, David Elizondo
School of Computing, De Montfort University, The Gateway, Leicester LE1 9BH, U.K.
Decision Support Systems (Impact Factor: 2.31). 04/2008; 45(1):110-122. DOI: 10.1016/j.dss.2007.12.002

Mapes autoorganitzatius (SOM) - Kohonen (1982)
T. Kohonen.
Self-Organized Formation of Topologically Correct Feature Maps.
Biological Cybernetics 43, 59-69 (1982)

Introducció BPN (INPUT 1996)
E. Pous, M. Roman and E. Golobardes.
“Introducció a les xarxes neuronals, presentació de les Backpropagation”
INPUT 10 (1996)

Deep Learning
Y LeCun, Y Bengio, G Hinton - Nature, 2015 - nature.com
Human gesture recognition using Kinect camera

O. Patsadu, C. Nukoolkit and B. Watanapa, "Human gesture recognition using Kinect camera," 2012 Ninth International Conference on Computer Science and Software Engineering (JCSSE), Bangkok, 2012, pp. 28-32.
doi: 10.1109/JCSSE.2012.6261920

New types of deep neural network learning for speech recognition and related applications: an overview
L. Deng, G. Hinton and B. Kingsbury, "New types of deep neural network learning for speech recognition and related applications: an overview," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8599-8603.
doi: 10.1109/ICASSP.2013.6639344

A Practical Introduction to Deep Learning with Caffe and Python
The goal of this blog post is to give you a hands-on introduction to deep learning. To do this, we will build a Cat/Dog image classifier using a deep learning algorithm called convolutional neural network (CNN) and a Kaggle dataset.

K-means (MacQueen, 1967)
J.B. MacQueen
"Some Methods for classification and Analysis of Multivariate Observations"
Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp. 281-297, University of California Press (1967)

X-means (Pelleg & Moore, 2000)
D. Pelleg and A. Moore
"X-means: Extending K-means with Efficient Estimation of the Number of Clusters"
In Proceedings of the 17th International Conference on Machine Learning (ICML’00), pages 727-734, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, ISBN:1-55860-707-2 (2000)

Material complementario

Transparencias y artículos que estarán a disposición del estudiante en la intranet de la asignatura.