STATISTICA APPLICATA 2

STATISTICA APPLICATA 2

_
iten
Codice
52509
ANNO ACCADEMICO
2018/2019
CFU
6 cfu al 3° anno di 8766 STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI (L-35)
SETTORE SCIENTIFICO DISCIPLINARE
SECS-S/01
SEDE
GENOVA (STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI )
periodo
2° Semestre
materiale didattico

PRESENTAZIONE

Esperti introducono o approfondiscono tecniche statistiche che utilizzano nel loro lavoro illustrandone la applicazione tramite esempi concreti. 

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

Fornire alcuni strumenti statistici legati a specifiche applicazioni tramite interventi di esperti

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

Pattern recognition e applicazioni (24 ore di lezioni frontali)
Il corso introduce i concetti fondamentali e gli algoritmi del Pattern Recognition statistico, presentati in un’ottica legata alle applicazioni industriali (es. manutenzione predittiva, ottimizzazione dei processi, controllo di qualità, etc.), al loro ciclo di sviluppo ed alla valutazione delle prestazioni. Particolare enfasi è posta sulle connessioni con il mondo della Computer Vision, che costituisce spesso la sorgente di dati su cui le metodologie di Pattern Recognition vanno ad operare. La materia è presentata a partire della teoria statistica della decisione e della stima parametrica, offrendo poi in rapida successione diversi punti di vista e diversi approcci concettuali con cui è possibile affrontare il problema, ma sempre con un comune riferimento nella capacità di realizzare sistemi industriali in grado di prendere in modo autonomo decisioni statisticamente ottimali sulla base dell’esperienza. Grazie al piano Industria 4.0 che dovrebbe portare ad un forte rinnovamento nei processi produttivi, si ritiene utile dare una visibilità maggiore di questo settore di impiego delle competenze statistiche.

Modelli di misurazione in psicometria (14 ore di lezioni frontali)
Il modulo presenta un'Introduzione alla teoria della psicometria per statistici e fornisce gli strumenti anche informatici (software R) per eseguire semplici le analisi psicometriche di base.

Demografia (4 ore di lezioni frontali)
Comunicare dati demografici al cittadino medio. Un esempio.

A questi moduli possono affiancarsi attività seminariali (non valutate) su altri aspetti applicati della statistica, usualmente presentate da data scientists operanti in aziende, società di consumo, enti pubblici.

PREREQUISITI

Fondamenti di statistica inferenziale. Nozioni di Statistica matematica.

Modalità didattiche

Lezioni in aula e laboratorio

PROGRAMMA/CONTENUTO

Pattern recognition e applicazioni
A valle di una panoramica iniziale sul problema del riconoscimento automatico e sui criteri di base con cui vengono realizzate le applicazioni, verranno affrontati in particolare i seguenti argomenti:

  • Teoria bayesiana della decisione. Principio della massima probabilità a posteriori. Classificazione e regressione. Approccio Naive Bayes. Costruzione del classificatore ottimale. Stima dei parametri. Valutazione oggettiva delleprestazioni. Cross-validation.
  • Classificatori statistici di tipogenerale. Misture gaussiane ed algoritmo EM. Identificazione di valori anomali. Alcune semplici tecniche non parametriche. Introduzione alle reti bayesiane e all’inferenza su grafi.
  • Riduzione della dimensionalità. Selezione di features. Approccio genetico. Trasformazioni lineari dello spazio: PCA/LDA/ICA. Mapping non lineari (t-SNE).
  • Approcci ad albero di decisione. La tecniche costruttiva CART. Bagging e random forest. Il boosting e le sue principali realizzazioni. Modellazione statistica di sistemi mediante alberi.
  • Reti neurali per la classificazione. Modelli multistrato ed algoritmi di apprendimento. Criteri di progetto di un classificatore neurale. Reti neurali come approssimatori generalizzati. Introduzione al deep learning (reti convolutive e stacked autoencoders)

Le lezioni teoriche sono intervallate da alcuni esempi di applicazioni discussi in dettaglio, quali:

  • Sistemi di letturaautomatica in ambientinon controllati (OCR). Costruzione di classificatori a diverso livello di complessità (da Naive Bayes alle reti convolutive) per il riconoscimento di caratteri alfanumerici.
  • Sistemi automatici di conteggio e di rilevamento eventi .Analisi d’immagini per definire la presenza di volti, persone, veicoli, etc. Estrazione di alcuni feature set e definizione di un test binario ottimale di accettazione mediante boosting.
  • Modellazione statistica di unmacchinario complesso. Definizione di una relazione non lineare d’ingresso-uscita per la previsione di una variabile target (es. consumo energetico) a partire dai dati strumentali di un impianto/processo, con l'uso di modelli random forest e neurali.
  • Controllo di qualità della produzione e manutenzione predittiva. Analisi della distribuzione probabilistica di dati sensoriali ed identificazione anomalie (outlier detection). Stima del tempo di vita residuo (TTF) del sistema.

Per tali applicazioni saranno disponibili moduli Matlab e dati originali su cui gli studenti potranno operare direttamente durante esercitazioni guidate.

Psicometria
La teoria classica dei test
Le variabili psicologiche o costrutti
Definizione del dominio di contenuto del costrutto e delle sue operazionalizzazioni
Modelli di misurazione in psicologia ad indicatori riflessivi e formativi
Analisi degli item e attendibilità
Analisi fattoriale esplorativa
Analisi fattoriale confermativa
Modelli di equazioni strutturali

Verranno mostrati esempi di analisi con R (packages 'psych', 'lavaan' e 'semPlot')

Demografia Il corso si basa sull'attenta lettura ed analisi del volume Tutto quello che non vi hanno mai detto sull'immigrazione (2015, Laterza) di Gianpiero Dalla Zuanna e Stefano Allievi. Raccolta, analisi e presentazione dei dati per aiutare la società a organizzarsi in modo da trasformare le opportunità in nuove realtà.

TESTI/BIBLIOGRAFIA

Pattern recognition e applicazioni
Materiale fornito dal docente e disponibile al sito http://www.onairweb.com/corsoPR/
Per approfodimenti:
R.Duda, P.Hart, D.Stork, Pattern Classifcation, Wiley, (2001)
S.Theodoridis, K.Koutroumbas, Pattern Recognition, Academic Press, (2006)
C.Bishop, Pattern Recognition and Machine Learning, Springer, (2007)
S.Theodoridis, Machine Learning, a Bayesian and Optimization Perspective, Academic Press, (2015)

Psicometria
Chiorri, C. (2011). Teoria e tecnica psicometrica. Milano: McGraw-Hill (capitoli 1, 2, 4 e 5).
Ulteriore materiale (slides, codici di R) verrà condiviso online dal docente.

Demografia
Gianpiero Dalla Zuanna e Stefano Allievi (2015). Tutto quello che non vi hanno mai detto sull'immigrazione, Laterza.

DOCENTI E COMMISSIONI

Eva Riccomagno

Su appuntamento richiesto per email all’indirizzo riccomagno@dima.unige.it

Commissione d'esame

CARLO CHIORRI

EVA RICCOMAGNO (Presidente)

LEZIONI

Modalità didattiche

Lezioni in aula e laboratorio

INIZIO LEZIONI

In accordo con il calendario accademico approvato dal Consiglio di Corsi di Studi.

 

 

ESAMI

Modalità d'esame

Pattern recognition and applications
Questionario a risposta multipla

Psicometria
Scritto e discussione orale

Demografia
Questionario con risposta a crocette

In voto finale è la media pesata dei voti delle tre parti. I pesi sono le ore di docenza frontale.

Modalità di accertamento

Pattern recognition and applications
Il questionario contiene 25 domande sugli argomenti trattati a lezione che possono prevedere sia risposte numeriche, ottenibili con calcoli elementari, sia risposte testuali tra cui scegliere, sia opzioni vero/falso. Non è consentito l'uso degli appunti ma solo di una eventuale calcolatrice. La durata della prova è di 45 minuti. La correzione avviene immediatamente a valle della prova. E' possibile discutere le proprie scelte su singole domande fornendo una adeguata motivazione.

Psicometria: Allo studente verrà presentato l'output di R di alcune analisi statistiche realizzate su dati reali. Sulla base di quanto appreso durante il corso e dal materiale di studio, nella prova scritta viene chiesto di interpretare e commentare i risultati ed evidenziare eventuali criticità. Nella discussione orale verranno commentati gli eventuali errori della prova scritta e indagata la preparazione dello studente sulla teoria psicometrica.

Demografia: la capacità dello studente di ritrovare in un complesso testo divulgativo precise informazioni e dati, oltre all’individuazione della metodologia statistica utilizzata per le analisi riportate nel testo.

Calendario appelli

Data Ora Luogo Tipologia Note
10/06/2019 09:00 GENOVA Laboratorio
17/07/2019 09:00 GENOVA Laboratorio

ALTRE INFORMAZIONI

Pagine web dell'insegnamento: gli esperti aziendali potranno fornire materiale didattico ulteriore. 

L’attività formativa, avendo un carattere prevalentemente seminariale e prevedendo anche docenti esterni, è rivolta a quegli studenti che possono frequentare regolarmente le lezioni.