Mineria de dades

Descripció:

L'assignatura és una introducció a la mineria de dades. La mineria de dades és la disciplina que estudia l'extracció d'informació útil de bases de dades. Avui en dia, les tècniques de mineria de dades s'usen en moltes aplicacions com per exemple la predicció de frau de targetes de crèdit, la segmentació de clients per a estudis de màrqueting, la diagnosi mèdica, etc. En aquest sentit, és un camp multidisciplinari i de gran interès pràctic.

Tipus assignatura

Optativa

Semestre

Primer

Crèdits

5.00

Professors Titulars

Lluís Formiga Fanals

Professors Docents

Alejandro Moñux Bernal

Coneixements previs:

Els estudiants haurien de tenir una comprensió sòlida d'àlgebra lineal i programació abans de cursar l'assignatura. Els requisits mínims en aquestes àrees són els següents:

Àlgebra lineal:
- Coneixement de les operacions amb vectors, com ara l'addició, la substracció, la multiplicació escalar i el producte escalar.
- Enteniment de les operacions amb matrius, incloent-hi la multiplicació, l'addició i la substracció de matrius.
- Familiaritat amb conceptes com ara les transposades de matrius, les inverses, els determinants i els valors propis/vectors propis.
- Enteniment de les transformacions lineals, incloent-hi la seva representació mitjançant matrius.
- Coneixement de la resolució de sistemes d'equacions lineals i les factoritzacions de matrius.

Programació:
- Coneixement de la programació orientada a objectes.
- Enteniment dels conceptes fonamentals de programació, incloent-hi les variables, els tipus de dades, el control de flux (p. ex., bucles, condicionals), les funcions i la gestió d'errors.
- Experiència en l'escriptura i l'execució de codi per manipular estructures de dades, com ara arrays, llistes i diccionaris.
- Familiaritat amb les operacions bàsiques d'entrada/sortida de fitxers.

Objectius:

Els Resultats d?Aprenentatge d?aquesta assignatura són:

- RA.01 : Ús de tècniques d?intel·ligència artificial, sistemes basats en el coneixement i mineria de dades.
- RA.02 : Dissenyar i implementar un procés de mineria de dades per aplicacions reals.
- RA.03 : Usar eines de data warehouse i OLAP per realitzar un procés d'anàlisi de mineria de dades.
- RA.04 : Avaluar els resultats de la mineria de dades, analitzar?ho gràficament, i usar el coneixement extret.
- RA.05 : Comunicar amb experts i no experts l'aplicació i ús de la mineria de dades.
- RA.06 : Descriure els principals algorismes de mineria de dades i implementar?los, adaptant?los a l'aplicació requerida i si s'escau, millorant-ne el rendiment i eficiència.

Continguts:

El temari de l'assignatura és el següent:

1. MapReduce
2. PageRank
3. Instance Based Learning (IBL)
4. Optimització de Mínims Quadrats i Gradient
5. Altres Mètodes d'Optimització Bioinspirats (Simulated Annealing i Algorismes Genètics)
6. Preprocessat de Dades
7. Selecció d'Atributs i Regularització
8. Avaluació de Models de DM
9. Aprenentage Inductiu
10. Regles d'Associació
11. Boosting / Bagging i altres Ensemble Methods
12. Aprenentatge Bayesià
13. Xarxes Neuronals

Temari addicional:
14. Clustering i Aprenentatge No supervisat.
15. Màquines de Suport Vectorial (SVM)

Metodologia:

L´assignatura s´imparteix amb la metodologia de Problem Based Learning (PBL). Aquesta metodologia fomenta l´aprenentatge de l´alumne mitjançant la definició d´un problema que l´alumne ha de resoldre en equip al llarg de la durada de l´assignatura. L´estudiant no assisteix a classes magistrals que anticipen el coneixement sobre la matèria, sinó que l´estudiant va construint el seu coneixement mitjançant la solució guiada a un problema degudament plantejat.

Els beneficis d'aquesta metodologia són l'assoliment de millor aprenentatge per part dels alumnes i la preparació pel món laboral, donat que al llarg del desenvolupament del problema l'alumne ha d'usar i millorar habilitats de treball en equip, de gestió del projecte, habilitats comunicatives, etc. En aquesta metodologia, no hi ha una separació clarament marcada del que típicament s'anomena 'teoria' i 'pràctica' (o sessions de teoria i sessions de pràctiques), sinó que totes dues s'entrellacen contínuament. L'estudiant desenvolupa un projecte pel qual necessita assolir uns conceptes que va adquirint de manera incremental.

La implementació concreta de la metodologia PBL en l'assignatura de mineria de dades és la següent:
- Per cada gran tema dels exposats anteriorment en l'apartat 'Temari', es plantejarà un problema a resoldre. Això es refereix a les seccions 2, 3, 4 i 5 del temari.

- L'alumne ha de resoldre el problema plantejat en equip. Per a la resolució d'aquest problema comptarà: amb l'ajut i guiatge del professor, i amb un conjunt de materials disponibles (apunts, llibres, articles, etc.). Molts d'aquests materials seran seleccionats prèviament pel professor. D'altres podran ser incorporats pel mateix alumne, promovent que l'alumne adquireixi habilitats d'aprenentatge autònom.

- No s'imparteixen classes magistrals purament, però sí que hi ha sessions de suport al desenvolupament del projecte que garanteixen: 1) que el projecte es realitzi adequadament per part dels equips i 2) que no hi ha buits de coneixement en els conceptes necessaris que han d'adquirir els alumnes.

- En funció del nombre d'estudiants de la classe, es dimensionaran els equips i la complexitat del projecte assignat a cada equip.

- És possible que per cada tema, hi hagi diferents problemes a resoldre per cada equip. En acabar el tema, cada equip presenta els resultats assolits i aquests són discutits entre la resta de companys del curs.

Avaluació:

L'avaluació està adaptada a la metodologia PBL. Cada alumne tindrà una nota global dels projectes, que serà la mitjana dels miniprojectes entregats. La nota de cada projecte serà la mitjana ponderada entre la nota global del projecte i una nota individual (que dependrà del seu grau de participació en el desenvolupament del projecte). En finalitzar el curs, l'alumne haurà de defensar un paper científic tenint en compte els coneixements generals de la matèria.

Criteris avaluació:

ExamensParcials | Punts de Control (2 Controls Test) * 30 %
Pràctiques (3 Pràctiques) * 40%
Defensa Paper Científic * 30%

Bibliografia bàsica:

Instance-Based Learning Algorithms (Aha et al., 1991)
D.W. Aha; D. Kibler; M.K. Albert

"Instance-Based Learning Algorithms"
Machine Learning, 6, 37-66 (1991)
Kluwer Academic Publishers

Case-Based Reasoning (Article Aamodt & Plaza, 1994)
A. Aamodt & E. Plaza
"Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches"

AI Communications. IOS Press, Vol. 7: 1, pp. 39-59. (1994)
Improved Heterogeneous Distance Functions (Wilson et al., 1997) Fitxer
D.R. Wilson and T.R. Martinez.

"Improved Heterogeneous Distance Functions "
Journal of Artificial Intelligence Research 6 (1997) 1-34
Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions URL
Alexandr, A., Indyk, P.,
Foundations of Computer Science, 2006. FOCS ?06. 47th Annual IEEE Symposium

Five Balltree Construction Algorithms
Omohundro, S.M.,
International Computer Science Institute Technical Report (1989)

LSH Forest: Self-Tuning Indexes for Similarity Search
Bawa, M., Condie, T., Ganesan
P., WWW ?05 Proceedings of the 14th international conference on World Wide Web Pages 651-660

Andrew NG ? Stanford Lecture Notes
Machine Learning for Natural Language Processing
Algorithms in Nature (CMU) - Optimization and Search
Algorithms in Nature (CMU) - Genetic Algorithms
Simulated Annealing - Kirill Netreba

Lecture Notes on Perception, Sensing & Instrumentation
Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions
Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp
SIAM Rev., Survey and Review section, Vol. 53, num. 2, pp. 217-288, June 2011

Matrix decompositions & latent semantic indexing
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press, chapter 18: Matrix decompositions & latent semantic indexing

Algorisme ID3 (Quinlan, 1986) Fitxer
J.R. Quinlan
"Induction of Decision Trees"
Machine Learning 1:81-106
Kluwer Academic Publishers
(1986)

Algorisme C4.5 (Quinlan, 1996) Fitxer
J.R. Quinlan
"Improved Use of Continuos Attributes in C4.5"

Journal of Artificial Intelligence Research 4:77-90
(1996)

Association Rules (R. Agrawal et al., 1993) Fitxer
R. Agrawal, T. Imielinski and A. Swami

"Mining association rules between sets of items in large databases"
Proceedings of the 1993 ACM SIGMOD International Conference on Management of data (SIGMOD'93), pp. 207-216
ISBN:0-89791-592-5
(1993)
http://dl.acm.org/citation.cfmac?id=170072

Algorisme APRIORI (R. Agrawal & R. Srikant, 1994) Fitxer
R. Agrawal & R. Srikant
"Fast Algorithms for Mining Association Rules"

Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499
Morgan Kaufmann Publishers Inc. San Francisco, CA, USA
ISBN:1-55860-153-8
(1994)

Bankruptcy forecasting: An empirical comparison of AdaBoost and neural networks Fitxer
Esteban Alfaro, Noelia García, Matías Gámez, David Elizondo
School of Computing, De Montfort University, The Gateway, Leicester LE1 9BH, U.K.
Decision Support Systems (Impact Factor: 2.31). 04/2008; 45(1):110-122. DOI: 10.1016/j.dss.2007.12.002

Mapes autoorganitzatius (SOM) - Kohonen (1982)
T. Kohonen.
Self-Organized Formation of Topologically Correct Feature Maps.
Biological Cybernetics 43, 59-69 (1982)

Introducció BPN (INPUT 1996)
E. Pous, M. Roman and E. Golobardes.
?Introducció a les xarxes neuronals, presentació de les Backpropagation?
INPUT 10 (1996)

Deep Learning
Y LeCun, Y Bengio, G Hinton - Nature, 2015 - nature.com
Human gesture recognition using Kinect camera

O. Patsadu, C. Nukoolkit and B. Watanapa, "Human gesture recognition using Kinect camera," 2012 Ninth International Conference on Computer Science and Software Engineering (JCSSE), Bangkok, 2012, pp. 28-32.
doi: 10.1109/JCSSE.2012.6261920

New types of deep neural network learning for speech recognition and related applications: an overview
L. Deng, G. Hinton and B. Kingsbury, "New types of deep neural network learning for speech recognition and related applications: an overview," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8599-8603.
doi: 10.1109/ICASSP.2013.6639344

A Practical Introduction to Deep Learning with Caffe and Python
The goal of this blog post is to give you a hands-on introduction to deep learning. To do this, we will build a Cat/Dog image classifier using a deep learning algorithm called convolutional neural network (CNN) and a Kaggle dataset.

K-means (MacQueen, 1967)
J.B. MacQueen
"Some Methods for classification and Analysis of Multivariate Observations"
Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp. 281-297, University of California Press (1967)

X-means (Pelleg & Moore, 2000)
D. Pelleg and A. Moore
"X-means: Extending K-means with Efficient Estimation of the Number of Clusters"
In Proceedings of the 17th International Conference on Machine Learning (ICML?00), pages 727-734, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, ISBN:1-55860-707-2 (2000)

Material complementari:

Transparències i articles que es posen a la disposició de l´alumne a la intranet de l´assignatura.

Grau en Enginyeria Multimèdia - Menció en Videojocs

Forma't com a graduat en Enginyeria Multimèdia a La Salle i preparat per ser un professional excel·lent en integració tecnològica, amb una sòlida formació tècnica i artística

Professors Titulars

Professors Docents

T’ajudem?

Segueix La Salle BCN

Grau en Enginyeria Multimèdia - Menció en Videojocs

Forma't com a graduat en Enginyeria Multimèdia a La Salle i preparat per ser un professional excel·lent en integració tecnològica, amb una sòlida formació tècnica i artística

Mineria de dades

Professors Titulars

Professors Docents

T’ajudem?

Segueix La Salle BCN

Formulari de cerca