Grau en Enginyeria Informàtica

Estudia Enginyeria Informàtica a La Salle i seràs un professional capaç de treballar amb les últimes tecnologies i nous productes, dissenyant, implementant i mantenint sistemes informàtics per a qualsevol sector d'activitat econòmica

Mineria de dades

Descripció
L´assignatura és una introducció a la mineria de dades. La mineria de dades és la disciplina que estudia l´extracció d´informació útil de bases de dades. Avui en dia, les tècniques de mineria de dades s´usen en moltes aplicacions com per exemple la predicció de frau de targetes de crèdit, la segmentació de clients per a estudis de màrketing, la diagnosi mèdica, etc. En aquest sentit, és un camp multidisciplinar i de gran interès pràctic.
Tipus assignatura
Tercer - Obligatoria
Semestre
Primer
Curs
4
Crèdits
5.00

Professors Titulars

Coneixements previs

Les pràctiques es fan en Python. Per poder cursar l´assignatura, l´alumne ha de tenir coneixements previs de programació, preferiblement d'algun llenguatge de programació orientat a objectes.

Objectius

A l´acabar el curs, l´alumne serà capaç de:

- Dissenyar i implementar un procés de mineria de dades per aplicacions reals.
- Usar eines de data warehouse i OLAP per realitzar un procés d´anàlisi de mineria de dades.
- Avaluar els resultats de la mineria de dades, analitzar-ho gràficament, i usar el coneixement extret.
- Comunicar amb experts i no experts l´aplicació i ús de la mineria de dades.
- Descriure els principals algorismes de mineria de dades i implementar-los, adaptant-los a l´aplicació requerida i si s´escau, millorant-ne el seu rendiment i eficiència.

En resum, l´alumne que assoleix l´assignatura és capaç de fer d´analista de mineria de dades, usant eines existents en el mercat, així com desenvolupar projectes de mineria de dades que impliquin el desenvolupament del projecte en totes les seves fases.

Continguts

El temari de l´assignatura és el següent:

1. MapReduce
2. PageRank
3. Instance Based Learning (IBL)
4. Optimització de Mínims Quadrats i Gradient
5. Altres Mètodes d'Optimització Bioinspirats (Simulated Annealing i Algorismes Genètics)
6. Preprocessat de Dades
7. Selecció d'Atributs i Regularització
8. Avaluació de Models de DM
9. Aprenentage Inductiu
10. Regles d'Associació
11. Boosting / Bagging i altres Ensemble Methods
12. Aprenentatge Bayesià
13. Xarxes Neuronals

Temari addicional:
14. Clustering i Aprenentatge No supervisat.
15. Màquines de Suport Vectorial (SVM)

Metodologia

L´assignatura s´imparteix amb la metodologia de Problem Based Learning (PBL). Aquesta metodologia fomenta l´aprenentatge de l´alumne mitjançant la definició d´un problema que l´alumne ha de resoldre en equip al llarg de la durada de l´assignatura. L´estudiant no assisteix a classes magistrals que anticipen el coneixement sobre la matèria, sinó que l´estudiant va construint el seu coneixement mitjançant la solució guiada a un problema degudament plantejat.

Els beneficis d´aquesta metodologia són l´assoliment de millor aprenentatge per part dels alumnes i la preparació pel món laboral, donat que al llarg del desenvolupament del problema l´alumne ha d´usar i millorar habilitats de treball en equip, de gestió del projecte, habilitats comunicatives, etc. En aquesta metodologia, no hi ha una separació clarament marcada del que típicament s´anomena `teoria´ i `pràctica´ (o sessions de teoria i sessions de pràctiques), sinó que les dues s´entrellacen contínuament. L´estudiant densevolupa un projecte pel qual necessita assolir uns conceptes que va adquirint de manera incremental.

La implementació concreta de la metodologia PBL en l´assignatura de mineria de dades és la següent:
- Per cada gran tema dels exposats anteriorment en l´apartat `Temari´, es plantejarà un problema a resoldre. Això es refereix a les seccions 2, 3, 4 i 5 del temari.

- L´alumne ha de resoldre el problema plantejat en equip. Per a la resolució d´aquest problema comptarà: amb l´ajut i guiatge del professor, i amb un conjunt de materials disponibles (apunts, llibres, articles, etc.). Molts d´aquests materials seran seleccionats prèviament pel professor. D´altres podran ser incorporats pel propi alumne, promovent que l´alumne adquireixi habilitats d´aprenentatge autònom.

- No es realitzen classes magistrals purament, però sí que hi ha sessions de suport al desenvolupament del projecte que garanteixen: 1) que el projecte es realitzi adequadament per part dels equips i 2) que no hi ha buits de coneixement en els conceptes necessaris que han d´aquirir els alumnes.

- En funció del nombre d´estudiants de la classe, es dimensionaran els equips i la complexitat del projecte assignat a cada equip.

- És possible que per cada tema, hi hagi diferents problemes a resoldre per cada equip. En acabar el tema, cada equip presenta els resultats assolits i aquests són discutits entre la resta de companys del curs.

Avaluació

L´avaluació està adaptada a la metodologia PBL. Cada alumne tindrà una nota global dels projectes, que serà el promig dels mini-projectes entregats. La nota de cada projecte serà la mitjana ponderada entre la nota global del projecte i una nota individual (que dependrà del seu grau de participació en el desenvolupament del projecte). En finalitzar el curs, l´alumne haurà de defensar un paper científic tenint en compte els coneixements generals de la matèria.

ExamensParcials | Punts de Control (2 Controls Test) – 30 %
Pràctiques (3 Pràctiques) – 40%
Defensa Paper Científic –30%

Criteris avaluació

Consulteu l´apartat anterior.

Bibliografia bàsica

Instance-Based Learning Algorithms (Aha et al., 1991)
D.W. Aha; D. Kibler; M.K. Albert

"Instance-Based Learning Algorithms"
Machine Learning, 6, 37-66 (1991)
Kluwer Academic Publishers

Case-Based Reasoning (Article Aamodt & Plaza, 1994)
A. Aamodt & E. Plaza
"Case-Based Reasoning: Foundational Issues, Methodological Variations, and System Approaches"

AI Communications. IOS Press, Vol. 7: 1, pp. 39-59. (1994)
Improved Heterogeneous Distance Functions (Wilson et al., 1997) Fitxer
D.R. Wilson and T.R. Martinez.

"Improved Heterogeneous Distance Functions "
Journal of Artificial Intelligence Research 6 (1997) 1-34
Near-Optimal Hashing Algorithms for Approximate Nearest Neighbor in High Dimensions URL
Alexandr, A., Indyk, P.,
Foundations of Computer Science, 2006. FOCS ‘06. 47th Annual IEEE Symposium

Five Balltree Construction Algorithms
Omohundro, S.M.,
International Computer Science Institute Technical Report (1989)

LSH Forest: Self-Tuning Indexes for Similarity Search
Bawa, M., Condie, T., Ganesan
P., WWW ‘05 Proceedings of the 14th international conference on World Wide Web Pages 651-660

Andrew NG – Stanford Lecture Notes
Machine Learning for Natural Language Processing
Algorithms in Nature (CMU) - Optimization and Search
Algorithms in Nature (CMU) - Genetic Algorithms
Simulated Annealing - Kirill Netreba

Lecture Notes on Perception, Sensing & Instrumentation
Finding structure with randomness: Probabilistic algorithms for constructing approximate matrix decompositions
Nathan Halko, Per-Gunnar Martinsson, Joel A. Tropp
SIAM Rev., Survey and Review section, Vol. 53, num. 2, pp. 217-288, June 2011

Matrix decompositions & latent semantic indexing
Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze (2008), Introduction to Information Retrieval, Cambridge University Press, chapter 18: Matrix decompositions & latent semantic indexing

Algorisme ID3 (Quinlan, 1986) Fitxer
J.R. Quinlan
"Induction of Decision Trees"
Machine Learning 1:81-106
Kluwer Academic Publishers
(1986)

Algorisme C4.5 (Quinlan, 1996) Fitxer
J.R. Quinlan
"Improved Use of Continuos Attributes in C4.5"

Journal of Artificial Intelligence Research 4:77-90
(1996)

Association Rules (R. Agrawal et al., 1993) Fitxer
R. Agrawal, T. Imielinski and A. Swami

"Mining association rules between sets of items in large databases"
Proceedings of the 1993 ACM SIGMOD International Conference on Management of data (SIGMOD'93), pp. 207-216
ISBN:0-89791-592-5
(1993)
http://dl.acm.org/citation.cfmac?id=170072

Algorisme APRIORI (R. Agrawal & R. Srikant, 1994) Fitxer
R. Agrawal & R. Srikant
"Fast Algorithms for Mining Association Rules"

Proceedings of the 20th International Conference on Very Large Data Bases (VLDB'94), pp 487-499
Morgan Kaufmann Publishers Inc. San Francisco, CA, USA
ISBN:1-55860-153-8
(1994)

Bankruptcy forecasting: An empirical comparison of AdaBoost and neural networks Fitxer
Esteban Alfaro, Noelia García, Matías Gámez, David Elizondo
School of Computing, De Montfort University, The Gateway, Leicester LE1 9BH, U.K.
Decision Support Systems (Impact Factor: 2.31). 04/2008; 45(1):110-122. DOI: 10.1016/j.dss.2007.12.002

Mapes autoorganitzatius (SOM) - Kohonen (1982)
T. Kohonen.
Self-Organized Formation of Topologically Correct Feature Maps.
Biological Cybernetics 43, 59-69 (1982)

Introducció BPN (INPUT 1996)
E. Pous, M. Roman and E. Golobardes.
“Introducció a les xarxes neuronals, presentació de les Backpropagation”
INPUT 10 (1996)

Deep Learning
Y LeCun, Y Bengio, G Hinton - Nature, 2015 - nature.com
Human gesture recognition using Kinect camera

O. Patsadu, C. Nukoolkit and B. Watanapa, "Human gesture recognition using Kinect camera," 2012 Ninth International Conference on Computer Science and Software Engineering (JCSSE), Bangkok, 2012, pp. 28-32.
doi: 10.1109/JCSSE.2012.6261920

New types of deep neural network learning for speech recognition and related applications: an overview
L. Deng, G. Hinton and B. Kingsbury, "New types of deep neural network learning for speech recognition and related applications: an overview," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, 2013, pp. 8599-8603.
doi: 10.1109/ICASSP.2013.6639344

A Practical Introduction to Deep Learning with Caffe and Python
The goal of this blog post is to give you a hands-on introduction to deep learning. To do this, we will build a Cat/Dog image classifier using a deep learning algorithm called convolutional neural network (CNN) and a Kaggle dataset.

K-means (MacQueen, 1967)
J.B. MacQueen
"Some Methods for classification and Analysis of Multivariate Observations"
Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, pp. 281-297, University of California Press (1967)

X-means (Pelleg & Moore, 2000)
D. Pelleg and A. Moore
"X-means: Extending K-means with Efficient Estimation of the Number of Clusters"
In Proceedings of the 17th International Conference on Machine Learning (ICML’00), pages 727-734, Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, ISBN:1-55860-707-2 (2000)

Material complementari

Transparències i articles que es posen a la disposició de l´alumne a la intranet de l´assignatura.