MULTIMODAL SYSTEMS | Corsi di Studio UniGe

CODICE	80164
ANNO ACCADEMICO	2019/2020
CFU	6 cfu anno 2 INGEGNERIA INFORMATICA 8733 (LM-32) - GENOVA
SETTORE SCIENTIFICO DISCIPLINARE	ING-INF/05
LINGUA	Italiano
SEDE	GENOVA
PERIODO	1° Semestre
MATERIALE DIDATTICO	AULAWEB

PRESENTAZIONE

L’insegnamento fornisce i concetti, i metodi e gli strumenti per la progettazione, l’implementazione e la valutazione di sistemi informatici capaci di acquisire, rappresentare e analizzare automaticamente il comportamento degli utenti (gesto, movimento, espressione facciale, parola) e di interagire con gli utenti in modo naturale, generando in tempo reale risposte multisensoriali (immagini, suoni, controllo di attuatori).

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

Il corso fornisce allo studente le basi per il progetto e lo sviluppo di interfacce uomo- macchina e di sistemi software avanzati, basati sull’interazione attraverso molteplici canali sensoriali e sulla elaborazione e comunicazione di contenuti audio e video. In particolare, viene affrontata la progettazione di interfacce naturali non di tipo desktop, incluse interfacce multimodali per sistemi mobili (tablet, smartphone), con esempi in vari contesti applicativi (consumer, salute, cultura, entertainment), anche attraverso esercitazioni sulla piattaforma EyesWeb ( http://www.infomus.org/eyesweb_eng.php ) . " "Il corso è di norma in lingua italiana con materiali didattici in inglese. In presenza di studenti non di lingua italiana, il corso sarà in lingua inglese: In questo caso i docenti prevedono la possibilità' di fornire, su richiesta e in ore aggiuntive, supporto didattico specifico a studenti di lingua italiana con difficoltà con la lingua inglese.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

Scopo dell’insegnamento è quello di introdurre i concetti fondamentali per la progettazione e lo sviluppo di sistemi informatici capaci di interagire in modo naturale con i propri utenti attraverso molteplici canali sensoriali. Questo richiede la conoscenza e l’applicazione di tecniche per l’acquisizione, la rappresentazione e l’analisi automatica del comportamento dell’utente – ad esempio algoritmi per il rilevamento e l’analisi del gesto, del movimento, dell’espressione facciale, della parola – e per la conseguente generazione in tempo reale di risposte multisensoriali da parte del sistema (immagini, suoni, controllo di attuatori).
Al termine dell’insegnamento, lo studente sarà in grado di:

Conoscere e comprendere le motivazioni per l’utilizzo dei sistemi multimodali interattivi, le architetture logiche che ne descrivono i principali componenti, le linee guida per la progettazione e lo sviluppo, gli ambiti applicativi in cui possono trovare più fruttuosamente impiego.
Conoscere e comprendere i principali dispositivi per l’acquisizione di dati caratterizzanti il comportamento dell’utente.
Conoscere e comprendere le tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente a partire da dati provenienti da molteplici canali sensoriali.
Analizzare specifici casi di studio, in particolari ambiti applicativi, allo scopo di valutare in modo critico l’opportunità di sviluppare un sistema multimodale interattivo piuttosto di una interfaccia utente tradizionale.
Progettare un sistema multimodale interattivo e implementarne i principali componenti, utilizzando gli strumenti di sviluppo presentati nel corso delle lezioni e delle esercitazioni.

PREREQUISITI

Nessuno. E’ auspicabile, ma non indispensabile, possedere conoscenze di base di interazione uomo-macchina (ciclo di progettazione, sviluppo e valutazione di interfacce utente tradizionali, metodologie di interaction design). E’ utile possedere conoscenze di base di programmazione.

MODALITA' DIDATTICHE

Il corso prevede lezioni frontali ed esercitazioni (approssimativamente 32 ore di lezioni frontale e 16 ore di esercitazioni per un totale di 48 ore). Le lezioni frontali hanno l’obiettivo di introdurre i concetti e le tecniche oggetto dell’insegnamento. Le esercitazioni consentono di applicare i concetti e le tecnologie viste a lezione in specifici casi di studio. Gli studenti possono seguire le esercitazioni con i propri laptop in aula. Le esercitazioni fanno uso di strumenti quali la piattaforma EyesWeb XMI per la parte riguardante l’analisi del gesto e del movimento e il MIR Toolbox per Matlab per la parte riguardante l’elaborazione audio.

Il corso si tiene di norma in lingua italiana con materiali didattici in inglese. In presenza di studenti non di lingua italiana, il corso si terrà in lingua inglese: in questo caso il docente prevede la possibilità di fornire, su richiesta e in ore aggiuntive, supporto didattico specifico a studenti di lingua italiana con difficoltà con la lingua inglese.

PROGRAMMA/CONTENUTO

1. Introduzione ai sistemi multimodali

Interfacce post-WIMP e interfacce multimodali
Definizione di sistema multimodale
Motivazioni per lo sviluppo di sistemi multimodali
Linee-guida per la progettazione di sistemi multimodali
Framework per sistemi multimodali: il W3C Multimodal Interaction Framework, il framework multilivello per l’analisi della comunicazione non verbale

2. La modalità visuale

Dispositivi per l’acquisizione di segnali video e di dati di movimento
Tecniche per l’analisi automatica del gesto e del movimento: algoritmi per la misura di caratteristiche del movimento, segmentazione di flussi di dati di movimento, riconoscimento di gesti, analisi del contenuto espressivo del gesto e del movimento.
Tecniche per l’analisi automatica di espressioni facciali: algoritmi di face detection, algoritmi per il calcolo di caratteristiche facciali e per l’estrazione automatica di Action Units.
Esercitazioni con l’utilizzo della piattaforma EyesWeb XMI.

3. La modalità uditiva

Dispositivi per l’acquisizione dei segnali audio
Tecniche per il calcolo e l’analisi di caratteristiche temporali, spettrali e cepstrali del segnale audio.
Introduzione alle tecniche di riconoscimento vocale
Introduzione alle tecniche di elaborazione digitale del suono e della musica
Esercitazioni con l’utilizzo di Matlab

4. Fusione multimodale

Livelli di fusione: early fusion model, late fusion model
Metodi per la fusione multimodale: metodi basati su regole, su classificazione e su stima

5. Casi di studio

Esempi concreti di progetto e sviluppo di sistemi multimodali in scenari applicativi selezionati, tra i quali: fruizione di musei e beni culturali, arti performative, educazione, benessere e riabilitazione.

TESTI/BIBLIOGRAFIA

Il materiale didattico consiste nella copia, in formato pdf, dei lucidi presentati a lezione, nel materiale relativo alle esercitazioni (applicazioni EyesWeb e script Matlab) e in una collezione di articoli scientifici, relativi agli argomenti del corso, forniti dal docente. Tutto il materiale didattico viene reso disponibile su AulaWeb. Il materiale didattico è redatto in lingua inglese.

DOCENTI E COMMISSIONI

GUALTIERO VOLPE

Ricevimento: Il docente è disponibile su appuntamento. Per prendere un appuntamento inviare una e-mail a gualtiero.volpe@unige.it, oppure telefonare allo 0103536542 (ufficio) o allo 0102758252 (laboratorio presso Casa Paganini).

Commissione d'esame

GUALTIERO VOLPE (Presidente)

ANTONIO CAMURRI

LEZIONI

INIZIO LEZIONI

Le lezioni si tengono nel primo semestre, dal 17 settembre 2018 al 19 dicembre 2018. L’orario delle lezioni è il seguente: mercoledì dalle 8:00 alle 10:00 e giovedì dalle 12:00 alle 14:00 in aula B3 (via all’Opera Pia, padiglione B).

Orari delle lezioni

L'orario di questo insegnamento è consultabile all'indirizzo: Portale EasyAcademy

ESAMI

MODALITA' D'ESAME

L’esame prevede lo svolgimento di un progetto didattico assegnato e dal docente e da una prova orale. Il progetto didattico riguarda la progettazione di un sistema multimodale interattivo per una specifica applicazione e può comprendere lo sviluppo di moduli software di elaborazione audio o video per l’analisi del comportamento dell’utente, l’approfondimento di specifici argomenti presentati durante il corso, attraverso ricerche bibliografiche mirate, l’ analisi di soluzioni esistenti e la valutazione delle prestazione di algoritmi. La prova orale consiste nella presentazione e discussione con il docente dei risultati del progetti, integrata da eventuali approfondimenti su argomenti affrontati durante il corso.

MODALITA' DI ACCERTAMENTO

Il progetto valuterà la capacità dello studente di analizzare un caso di studio, di valutare l’opportunità di sviluppare un sistema multimodale interattivo in tale contesto, di progettare un sistema multimodale interattivo e di applicare alcune delle tecnologie apprese nel corso delle lezioni. La prova orale permetterà di verificare il grado di conoscenza e di comprensione degli aspetti teorici fondamentali relativi ai sistemi multimodali (motivazioni, architetture logiche, linee guida per la progettazione) nonché la conoscenza dei principali dispositivi per l’acquisizione di dati e delle tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente. Saranno valutati la qualità del progetto e dell’esposizione, la capacità di ragionamento critico sul progetto realizzato, l’utilizzo corretto del lessico specialistico, la profondità della conoscenza degli argomenti del corso e la capacità di illustrarne i contenuti.

Calendario appelli

Data appello	Orario	Luogo	Tipologia
16/01/2020	09:30	GENOVA	Scritto
11/02/2020	09:30	GENOVA	Scritto
16/06/2020	09:30	GENOVA	Scritto
10/07/2020	09:30	GENOVA	Scritto
03/09/2020	09:30	GENOVA	Scritto

ALTRE INFORMAZIONI

Sono disponibili tesi di laurea magistrale che riguardano gli argomenti del corso e che prevedono la progettazione e lo sviluppo di sistemi multimodali interattivi in ambiti di interesse per la ricerca scientifica e tecnologica condotta presso il centro di ricerca Casa Paganini – InfoMus del DIBRIS (www.casapaganini.org). Per gli studenti interessati, il corso offre le conoscenze teoriche e pratiche utili ad affrontare il lavoro di tesi.