Doble Grau en International Computer Engineering and Management of Business and Technology

Mineria de dades

Descripció
L´assignatura és una introducció a la mineria de dades. La mineria de dades és la disciplina que estudia l´extracció d´informació útil de bases de dades. Avui en dia, les tècniques de mineria de dades s´usen en moltes aplicacions com per exemple la predicció de frau de targetes de crèdit, la segmentació de clients per a estudis de màrketing, la diagnosi mèdica, etc. En aquest sentit, és un camp multidisciplinar i de gran interès pràctic.
Tipus assignatura
Tercer - Obligatoria
Semestre
Primer
Curs
4
Crèdits
5.00

Professors Titulars

Coneixements previs

Per poder cursar l´assignatura, l´alumne ha de tenir coneixements previs de programació, preferiblement d´algun llenguatge de programació orientat a objectes.

Objectius

A l´acabar el curs, l´alumne serà capaç de:

- Dissenyar i implementar un procés de mineria de dades per aplicacions reals.
- Usar eines de data warehouse i OLAP per realitzar un procés d´anàlisi de mineria de dades.
- Avaluar els resultats de la mineria de dades, analitzar-ho gràficament, i usar el coneixement extret.
- Comunicar amb experts i no experts l´aplicació i ús de la mineria de dades.
- Descriure els principals algorismes de mineria de dades i implementar-los, adaptant-los a l´aplicació requerida i si s´escau, millorant-ne el seu rendiment i eficiència.

En resum, l´alumne que assoleix l´assignatura és capaç de fer d´analista de mineria de dades, usant eines existents en el mercat, així com desenvolupar projectes de mineria de dades que impliquin el desenvolupament del projecte en totes les seves fases.

Continguts

El temari de l´assignatura és el següent:

1. Introductció a la Mineria de Dades i KDD
2. DataWarehouse I tecnologies OLAP per mineria de dades
3. Preprocés de les dades
3. Regles d´associació
4. Classificació i regressió
5. Clustering
6. Avaluació, visualització i ús del coneixement extret
7. Mineria de dades complexes (espacial, temporal, web mining)
8. Eines per la mineria de dades: Pentaho, Weka, DBMiner.

Metodologia

L´assignatura s´imparteix amb la metodologia de Problem Based Learning (PBL). Aquesta metodologia fomenta l´aprenentatge de l´alumne mitjançant la definició d´un problema que l´alumne ha de resoldre en equip al llarg de la durada de l´assignatura. L´estudiant no assisteix a classes magistrals que anticipen el coneixement sobre la matèria, sinó que l´estudiant va construint el seu coneixement mitjançant la solució guiada a un problema degudament plantejat.

Els beneficis d´aquesta metodologia són l´assoliment de millor aprenentatge per part dels alumnes i la preparació pel món laboral, donat que al llarg del desenvolupament del problema l´alumne ha d´usar i millorar habilitats de treball en equip, de gestió del projecte, habilitats comunicatives, etc. En aquesta metodologia, no hi ha una separació clarament marcada del que típicament s´anomena `teoria´ i `pràctica´ (o sessions de teoria i sessions de pràctiques), sinó que les dues s´entrellacen contínuament. L´estudiant densevolupa un projecte pel qual necessita assolir uns conceptes que va adquirint de manera incremental.

La implementació concreta de la metodologia PBL en l´assignatura de mineria de dades és la següent:
- Per cada gran tema dels exposats anteriorment en l´apartat `Temari´, es plantejarà un problema a resoldre. Això es refereix a les seccions 2, 3, 4 i 5 del temari.

- L´alumne ha de resoldre el problema plantejat en equip. Per a la resolució d´aquest problema comptarà: amb l´ajut i guiatge del professor, i amb un conjunt de materials disponibles (apunts, llibres, articles, etc.). Molts d´aquests materials seran seleccionats prèviament pel professor. D´altres podran ser incorporats pel propi alumne, promovent que l´alumne adquireixi habilitats d´aprenentatge autònom.

- No es realitzen classes magistrals purament, però sí que hi ha sessions de suport al desenvolupament del projecte que garanteixen: 1) que el projecte es realitzi adequadament per part dels equips i 2) que no hi ha buits de coneixement en els conceptes necessaris que han d´aquirir els alumnes.

- En funció del nombre d´estudiants de la classe, es dimensionaran els equips i la complexitat del projecte assignat a cada equip.

- És possible que per cada tema, hi hagi diferents problemes a resoldre per cada equip. En acabar el tema, cada equip presenta els resultats assolits i aquests són discutits entre la resta de companys del curs.

Avaluació

L´avaluació està adaptada a la metodologia PBL. Cada alumne tindrà una nota global dels projectes, que serà el promig dels mini-projectes entregats. La nota de cada projecte serà la mitjana ponderada entre la nota global del projecte i una nota individual (que dependrà del seu grau de participació en el desenvolupament del projecte). En finalitzar el curs, l´alumne haurà de presentar-se a un examen final sobre els coneixements generals de la matèria.

La nota dels projectes comptarà un 70% de la nota final i la nota de l´examen el 30% restant. El promig resultant ha de ser superior a 5 per poder aprovar l´assignatura.

Els projectes s´hauran de lliurar en els terminis establerts, donat que tots ells impliquen una presentació pública a classe. La presentació serà de curta durada, però serà necessària per facilitar: la compartició dels coneixements adquirits amb la resta d´equips i per consolidar els coneixements i les lliçons apreses. Sovint, els projectes estaran seqüencialment encadenats de manera que els resultats d´un projecte poden ser usats o analitzats en els temes posteriors.

En cas que l´alumne no pugui entregar els projectes assignats en els terminis establerts, hi haurà una convocatòria extraordinària al juny/juliol però la nota màxima a que optarà serà un 6. Pel bon funcionament del PBL és recomanable que cada equip presenti els seus resultats durant el curs. Altrament, es fa molt difícil progressar adequadament.

Criteris avaluació

Consulteu l´apartat anterior.

Bibliografia bàsica

[1] Han Jiawei, Kamber Micheline, `Data Mining: Concepts and Techniques, Second Edition´, Morgan Kaufmann Publishers- Elsevier, 2006.
[2] J.Hernández Orallo, M.J.Ramírez, C. Ferri Ramírez, `Introducción a la Minería de Datos´, Pearson - Prentice Hall, 2004.
[3] Ian H. Witten, Eibe Frank, `Data Mining: Practical Machine Learning Tools and Techniques, Second Edition´, Morgan Kaufmann Publishers-Elsevier, 2005.
[4] Dorian Pyle, `Data Preparation for Data Mining´, Morgan Kaufmann Publishers, 1999.

Material complementari

Transparències i articles que es posen a la disposició de l´alumne a la intranet de l´assignatura.