DATA MINING

DATA MINING

_
iten
Codice
52507
ANNO ACCADEMICO
2018/2019
CFU
6 cfu al 3° anno di 8766 STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI (L-35) GENOVA
SETTORE SCIENTIFICO DISCIPLINARE
SECS-S/01
LINGUA
Italiano
SEDE
GENOVA (STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI )
periodo
2° Semestre
materiale didattico

PRESENTAZIONE

Sviluppare la capacità di estrarre sapere e conoscenza da grandi quantità di dati, specificamente

  • capendo l’utilità del data mining per risolvere problem reali
  • capendo i concetti fondamentali del data mining
  • conoscendo gli algoritmi più comuni del data mining
  • sapendo applicare tecniche di data mining a problem concreti

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

Sviluppare la capacità di estrarre sapere e conoscenza da grandi quantità di dati.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

Alla fine del corso lo studente

  • avrà acquisito i concetti e tecniche base del data mining
  • saprà applicare in autonomia le tecniche principali del data mining per risolvere problem reali
  • saprà approfondire in autonomia argomenti di data mining in relazione a specifiche applicazioni  

Modalità didattiche

Lezioni in aula, sezioni in laboratorio

PROGRAMMA/CONTENUTO

Prima parte: introduzione al data mining
Introduzione a Data Mining, Data Science e Big Data Analytics
Il processo di Data Mining - CRISP
Sette classi di Algoritmi
            Supervised Learning – Classification
            Unsupervised Learnimg – Clustering
            Outliers detection
            Regression
            Reinforced Learning
            Ranking
            Deep Learning
I dieci algoritmi più utilizzati in data mining
Esempi utilizzando il software WEKA
Applicazioni al marketing, alla finanza, alla medicina
Big Data e Hadoop
Approccio NoSQL ai dati

Seconda parte: algoritmo di apprendimento automatico per il Data mining
Introduzione al Data Mining e Machine Learning
Richiami di inferenza statistica e tassonomia dei problemi di Data Mining.
Classificazione: Support Vector Machine lineare e non lineare
Esercitazione di laboratorio
Regressione: Support Vector Regression lineare e non lineare
Esercitazione di laboratorio
Clustering: K-Means (con estensione tramite kernel) e Spectral Clustering Esercitazione di laboratorio
Alberi di decisione
Il problema della selezione e validazione dei modelli: k-fold Cross Validation e Bootstrap

TESTI/BIBLIOGRAFIA

  • Aggarwal, C- C. Data mining: the textbook. Springer, 2015.
  • Shalev-Shwartz, S., and Shai B. D. Understanding machine learning: From theory to algorithms. Cambridge University Press, 2014.
  • Ian H. Witten, Eibe Frank, Mark A. Hall (2000). Data Mining: Practical Machine Learning Tools and Techniques (The Morgan Kaufmann Series in Data Management Systems) ISBN-13: 978-0123748560. Disponibile presso il CSB di Ingegneria 006.312 WIT --> disponibile anche online a http://www.sciencedirect.com/science/book/9780123748560
  • Clifton Phua, Vincent Lee, Kate Smith and Ross Gayler (2005). A Comprehensive Survey of Data Mining-based Fraud Detection Research, Computing Research Repository, abs/1009.6119. Disponibile online --> http://arxiv.org/abs/1009.6119
  • N. Cristianini, J. Shawe-Taylor, An introduction to support Vector Machine and other kernel-based learning methods, Cambridge University Press, 2006 disponibile ING e ECO
  • A. Ng, M. Jordan, Y. Weiss, On spectral clustering: Analysis and an algorithm, NIPS 2001. --> disponibile anche online a  http://papers.nips.cc/paper/2092-on-spectral-clustering-analysis-and-an-algorithm.pdf
  • Dispense/Handouts

DOCENTI E COMMISSIONI

Ricevimento: Su appuntamento richiesto per email all’indirizzo riccomagno@dima.unige.it

Commissione d'esame

FABRIZIO MALFANTI (Presidente)

EVA RICCOMAGNO (Presidente)

LUCA ONETO

LEZIONI

Modalità didattiche

Lezioni in aula, sezioni in laboratorio

INIZIO LEZIONI

In accordo con il calendario accademico approvato dal Consiglio di Corsi di Studi.

ORARI

L'orario di tutti gli insegnamenti è consultabile su EasyAcademy.

Vedi anche:

DATA MINING

ESAMI

Modalità d'esame

E' obbligatorio prenotarsi per sostenere l'esame.
L'esame della prima parte consiste nell'elaborazione, svolta in gruppo, di un progetto concordato con il docente e in una prova scritta con correzione commentata e possibilità di discussione.
L'esame della seconda parte consiste nella discussione orale di un caso di studio svolto in autonomia dallo studente e concordato con i docenti.
Il voto finale è calcolato come la media pesata dei due voti con peso il numero di crediti.

Modalità di accertamento

Durante l'esame verrà accertata la conoscenza, da parte dello studente, delle metodologie e delle tecniche per l'estrazione di conoscenza da grandi moli di dati attraverso un piccolo progetto monografico che prevede la soluzione di un problema reale di analisi dati.

ALTRE INFORMAZIONI

La pagina web della seconda parte del corso è disponibile al link https://sites.google.com/view/lucaoneto/teaching/dm-smid

Su appuntamento richiesto per email agli indirizzi Luca Oneto <luca.oneto@unige.it>, Fabrizio Malfanti fabrizio.malfanti@intelligrate.it
Per questioni organizzative contattare via email Eva Riccomagno <riccomagno@dima.unige.it>