Los estudiantes deberían tener un sólido entendimiento de álgebra lineal y programación antes de cursar la asignatura. Los requisitos mínimos en estas áreas son los siguientes:
Álgebra lineal:
- Conocimiento de operaciones con vectores, como adición, sustracción, multiplicación escalar y producto escalar.
- Comprensión de operaciones con matrices, incluyendo multiplicación, adición y sustracción de matrices.
- Familiaridad con conceptos como transposición de matrices, inversas, determinantes y valores propios/vectores propios.
- Comprensión de transformaciones lineales, incluyendo su representación mediante matrices.
- Conocimiento de resolución de sistemas de ecuaciones lineales y factorizaciones de matrices.
Programación:
- Conocimiento de programación orientada a objetos.
- Comprensión de conceptos fundamentales de programación, incluyendo variables, tipos de datos, control de flujo (por ejemplo, bucles, condicionales), funciones y manejo de errores.
- Experiencia en la escritura y ejecución de código para manipular estructuras de datos, como arrays, listas y diccionarios.
- Familiaridad con operaciones básicas de entrada/salida de archivos.
Al finalizar el curso, el alumno es capaz de:
- Diseñar e implementar un proceso de minería de datos para aplicaciones reales.
- Usar herramientas de data warehouse y OLAP para realizar un proceso de análisis de minería de datos.
- Evaluar los resultados de la minería de datos, analizarlo gráficamente y usar el conocimiento extraído de este análisis.
- Comunicar con expertos y no expertos la aplicación y uso de técnicas de minería de datos.
- Describir los algoritmos principales de minería de datos e implementarlos, adaptándolos a la aplicación requerida y mejorando, si es necesario, su rendimiento y eficiencia.
En resumen, el estudiante que termina la asignatura con éxito, es capaz de trabajar como analista de minería de datos, usando herramientas existentes en el mercado, así como desarrollar proyectos de minería de datos que impliquen el desarrollo del proyecto en todas sus fases.
El temario de la asignatura es el siguiente:
1. MapReduce
2. PageRank
3. Instance Based Learning (IBL)
4. Optimización de Mínimos Cuadrados y Gradiente
5. Otros Métodos de Optimización Bioinspirados (Simulated Annealing y Algoritmos Genéticos)
6. Preprocesado de Datos
7. Selección de Atributos y Regularización
8. Evaluación de Modelos de DM
9. Aprendizaje Inductivo
10. Reglas de Asociación
11. Boosting / Bagging y otros Ensemble Methods
12. Aprendizaje Bayesiano
13. Redes Neuronales
Temario adicional:
14. Clustering y Aprendizaje No supervisado.
15. Máquinas de Soporte Vectorial (SVM)
La asignatura se imparte según la metodología Problem Based Learning (PBL). Esta metodología fomenta el aprendizaje del alumno mediante la definición de un problema que el alumno debe resolver en equipo a lo largo de la asignatura. El estudiante no asiste a clases magistrales que anticipan el conocimiento sobre la materia, sino que el estudiante va construyendo este conocimiento mediante la solución guiada a un problema debidamente planteado.
Los beneficios de esta metodología son la consolidación del aprendizaje por parte de los alumnos y la mejor preparación para el mundo laboral, dado que el alumno tiene que trabajar en equipo y desarrollar competencias de gestión del proyecto, habilidades comunicativas, etc. En esta metodología, no hay una separación clara entre los conceptos de teoría y práctica; más bien, los dos conceptos se entrelazan continuamente. El estudiante desarrolla un proyecto para el cual necesita adquirir unos conocimientos de forma incremental.
La implementación concreta de la metodología PBL en la asignatura es la siguiente:
- Para cada gran tema de los expuestos anteriormente, se plantea un problema a resolver. Esto se aplica para los temas 2,3,4 y 5 del temario.
- El estudiante tiene que resolver el problema planteado en equipo. Para la resolución del problema dispondrá: de la ayuda y guía del profesor, y un conjunto de materiales disponibles (apuntes, libros, artículos). Muchos de estos materiales estarán seleccionados previamente por el profesor. Otros materiales podrán ser incorporados por el propio alumno, fomentando así que el estudiante adquiera habilidades de aprendizaje autónomo.
- No se realizarán clases magistrales al estilo tradicional, pero sí hay sesiones de soporte al desarrollos del proyecto que garantizan: 1) que el proyecto se realice de forma adecuada por cada equipo, 2) que no hay vacíos de conocimiento en los conceptos necesarios que tienen que adquirir los alumnos.
- Dependiendo del número de estudiantes en la clase, se dimensionarán los equipos y la complejidad del proyecto asignado a cada equipo.
- Es posible que por cada tema haya distintos problemas a resolver por cada equipo.
- Al finalizar cada proyecto, cada equipo presenta los resultados obtenidos y éstos son discutidos por el resto de compañeros de la clase.
La evaluación está adaptada a la metodología PBL. Cada alumno tendrá una nota global de los proyectos, que será la media de los miniproyectos entregados. La nota de cada proyecto será la media ponderada entre la nota global del proyecto y una nota individual (que dependerá de su grado de participación en el desarrollo del proyecto). Al finalizar el curso, el alumno tendrá que defender un papel científico teniendo en cuenta los conocimientos generales de la materia.
ExamenesParciales | Puntos de Control (2 Controles Test) * 30%
Prácticas (3 Prácticas) * 40%
Defensa Paper Científico * 30%
Consultar el apartado anterior.
Instance-Based Learning Algorithms (Aha et al., 1991)
D.W. Aha; D. Kibler; M.K. Albert
"Instance-Based Learning Algorithms"
Machine Learning, 6, 37-66 (1991)
Kluwer Academic Publishers
Case-Based Reasoning (Article Aamodt & Plaza, 1994)
A. Aamodt & E. Plaza
"Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches"
AI Communications. IOS Press, Vol. 7: 1, pp. 39-59. (1994)
Improved Heterogeneous Distance Functions (Wilson et al., 1997) Fitxer
D.R. Wilson and T.R. Martinez.
"Improved Heterogeneous Distance Functions "
Journal of Artificial Intelligence Research 6 (1997) 1-34
Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions URL
Alexandr, A., Indyk, P.,
Foundations of Computer Science, 2006. FOCS ‘06. 47th Annual IEEE Symposium
Five Balltree Construction Algorithms
Omohundro, S.M.,
International Computer Science Institute Technical Report (1989)
LSH Forest: Self-Tuning Indexes for Similarity Search
Bawa, M., Condie, T., Ganesan
P., WWW ‘05 Proceedings of the 14th international conference on World Wide Web Pages 651-660
Andrew NG – Stanford Lecture Notes
Machine Learning for Natural Language Processing
Algorithms in Nature (CMU) - Optimization and Search
Algorithms in Nature (CMU) - Genetic Algorithms
Simulated Annealing - Kirill Netreba
Lecture Notes on Perception, Sensing & Instrumentation
Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions
Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp
SIAM Rev., Survey and Review section, Vol. 53, num. 2, pp. 217-288, June 2011
Matrix decompositions & latent semantic indexing
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press, chapter 18: Matrix decompositions & latent semantic indexing
Algorisme ID3 (Quinlan, 1986) Fitxer
J.R. Quinlan
"Induction of Decision Trees"
Machine Learning 1:81-106
Kluwer Academic Publishers
(1986)
Algorisme C4.5 (Quinlan, 1996) Fitxer
J.R. Quinlan
"Improved Use of Continuos Attributes in C4.5"
Journal of Artificial Intelligence Research 4:77-90
(1996)
Association Rules (R. Agrawal et al., 1993) Fitxer
R. Agrawal, T. Imielinski and A. Swami
"Mining association rules between sets of items in large databases"
Proceedings of the 1993 ACM SIGMOD International Conference on Management of data (SIGMOD'93), pp. 207-216
ISBN:0-89791-592-5
(1993)
http://dl.acm.org/citation.cfmac?id=170072
Algorisme APRIORI (R. Agrawal & R. Srikant, 1994) Fitxer
R. Agrawal & R. Srikant
"Fast Algorithms for Mining Association Rules"
Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499
Morgan Kaufmann Publishers Inc. San Francisco, CA, USA
ISBN:1-55860-153-8
(1994)
Bankruptcy forecasting: An empirical comparison of AdaBoost and neural networks Fitxer
Esteban Alfaro, Noelia García, Matías Gámez, David Elizondo
School of Computing, De Montfort University, The Gateway, Leicester LE1 9BH, U.K.
Decision Support Systems (Impact Factor: 2.31). 04/2008; 45(1):110-122. DOI: 10.1016/j.dss.2007.12.002
Mapes autoorganitzatius (SOM) - Kohonen (1982)
T. Kohonen.
Self-Organized Formation of Topologically Correct Feature Maps.
Biological Cybernetics 43, 59-69 (1982)
Introducció BPN (INPUT 1996)
E. Pous, M. Roman and E. Golobardes.
“Introducció a les xarxes neuronals, presentació de les Backpropagation”
INPUT 10 (1996)
Deep Learning
Y LeCun, Y Bengio, G Hinton - Nature, 2015 - nature.com
Human gesture recognition using Kinect camera
O. Patsadu, C. Nukoolkit and B. Watanapa, "Human gesture recognition using Kinect camera," 2012 Ninth International Conference on Computer Science and Software Engineering (JCSSE), Bangkok, 2012, pp. 28-32.
doi: 10.1109/JCSSE.2012.6261920
New types of deep neural network learning for speech recognition and related applications: an overview
L. Deng, G. Hinton and B. Kingsbury, "New types of deep neural network learning for speech recognition and related applications: an overview," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8599-8603.
doi: 10.1109/ICASSP.2013.6639344
A Practical Introduction to Deep Learning with Caffe and Python
The goal of this blog post is to give you a hands-on introduction to deep learning. To do this, we will build a Cat/Dog image classifier using a deep learning algorithm called convolutional neural network (CNN) and a Kaggle dataset.
K-means (MacQueen, 1967)
J.B. MacQueen
"Some Methods for classification and Analysis of Multivariate Observations"
Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp. 281-297, University of California Press (1967)
X-means (Pelleg & Moore, 2000)
D. Pelleg and A. Moore
"X-means: Extending K-means with Efficient Estimation of the Number of Clusters"
In Proceedings of the 17th International Conference on Machine Learning (ICML’00), pages 727-734, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, ISBN:1-55860-707-2 (2000)
Transparencias y artículos que estarán a disposición del estudiante en la intranet de la asignatura.