MULTIMODAL SYSTEMS

MULTIMODAL SYSTEMS

_
iten
Ultimo aggiornamento 29/06/2021 13:56
Codice
80164
ANNO ACCADEMICO
2021/2022
CFU
6 cfu al 2° anno di 11160 COMPUTER ENGINEERING (LM-32) GENOVA
SETTORE SCIENTIFICO DISCIPLINARE
ING-INF/05
LINGUA
Inglese
SEDE
GENOVA (COMPUTER ENGINEERING )
periodo
1° Semestre
materiale didattico

PRESENTAZIONE

Questo insegnamento fornisce le conoscenze fondamentali per la progettazione di sistemi informatici capaci di acquisire, rappresentare e analizzare automaticamente il comportamento degli utenti e di interagire con loro in modo naturale, generando risposte multisensoriali in tempo reale.

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

This course provides students with foundational conceptual knowledge, methodologies, and tools for designing, implementing, and evaluating computer systems that can capture, represent, and automatically analyze the behavior of their users (e.g., in terms of gesture, movement, facial expressions, speech) and interact with them by generating multisensory feedback (e.g., images, sounds, control of actuators) in real-time.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

Scopo dell’insegnamento è quello di introdurre i concetti fondamentali per la progettazione e lo sviluppo di sistemi informatici capaci di interagire in modo naturale con i propri utenti attraverso molteplici canali sensoriali. Questo richiede la conoscenza e l’applicazione di tecniche per l’acquisizione, la rappresentazione e l’analisi automatica del comportamento dell’utente – ad esempio algoritmi per il rilevamento e l’analisi del gesto, del movimento, dell’espressione facciale, della parola – e per la conseguente generazione in tempo reale di risposte multisensoriali da parte del sistema (immagini, suoni, controllo di attuatori).
Al termine dell’insegnamento, lo studente sarà in grado di:

  • Conoscere e comprendere le motivazioni per l’utilizzo dei sistemi multimodali interattivi, le architetture logiche che ne descrivono i principali componenti, le linee guida per la progettazione e lo sviluppo, gli ambiti applicativi in cui possono trovare più fruttuosamente impiego.
  • Conoscere e comprendere i principali dispositivi per l’acquisizione di dati caratterizzanti il comportamento dell’utente.
  • Conoscere e comprendere le tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente a partire da dati provenienti da molteplici canali sensoriali.
  • Analizzare specifici casi di studio, in particolari ambiti applicativi, allo scopo di valutare in modo critico l’opportunità di sviluppare un sistema multimodale interattivo piuttosto di una interfaccia utente tradizionale.
  • Progettare un sistema multimodale interattivo e implementarne i principali componenti, utilizzando gli strumenti di sviluppo presentati nel corso delle lezioni e delle esercitazioni.

PREREQUISITI

Nessuno. E’ auspicabile, ma non indispensabile, possedere conoscenze di base di interazione uomo-macchina (ciclo di progettazione, sviluppo e valutazione di interfacce utente tradizionali, metodologie di interaction design). E’ utile possedere conoscenze di base di programmazione.

Modalità didattiche

Il corso prevede lezioni frontali ed esercitazioni (approssimativamente 32 ore di lezioni frontale e 16 ore di esercitazioni per un totale di 48 ore). Le lezioni frontali hanno l’obiettivo di introdurre i concetti e le tecniche oggetto dell’insegnamento. Le esercitazioni consentono di applicare i concetti e le tecnologie viste a lezione in specifici casi di studio. Gli studenti possono seguire le esercitazioni con i propri laptop in aula. Le esercitazioni fanno uso di strumenti software per l’analisi del gesto e del movimento e per l’elaborazione audio. Il corso si tiene in lingua inglese.

PROGRAMMA/CONTENUTO

1. Introduzione ai sistemi multimodali

  • Interfacce post-WIMP e interfacce multimodali
  • Definizione di sistema multimodale
  • Motivazioni per lo sviluppo di sistemi multimodali
  • Linee-guida per la progettazione di sistemi multimodali
  • Framework per sistemi multimodali: il W3C Multimodal Interaction Framework, il framework multilivello per l’analisi della comunicazione non verbale

2. La modalità visuale

  • Dispositivi per l’acquisizione di segnali video e di dati di movimento
  • Tecniche per l’analisi automatica del gesto e del movimento: algoritmi per la misura di caratteristiche del movimento, segmentazione di flussi di dati di movimento, riconoscimento di gesti, analisi del contenuto espressivo del gesto e del movimento
  • Tecniche per l’analisi automatica di espressioni facciali: algoritmi di face detection, algoritmi per il calcolo di caratteristiche facciali e per l’estrazione automatica di Action Units
  • Esercitazioni

3. La modalità uditiva

  • Dispositivi per l’acquisizione dei segnali audio
  • Tecniche per il calcolo e l’analisi di caratteristiche temporali, spettrali e cepstrali del segnale audio
  • Introduzione alle tecniche di riconoscimento vocale
  • Esercitazioni

4. Fusione multimodale

  • Livelli di fusione: early fusion model, late fusion model
  • Metodi per la fusione multimodale

 5. Casi di studio

  • Esempi concreti di progetto e sviluppo di sistemi multimodali in scenari applicativi selezionati, tra i quali: fruizione di musei e beni culturali, arti performative, educazione, benessere e riabilitazione

TESTI/BIBLIOGRAFIA

Il materiale didattico consiste nella copia, in formato pdf, dei lucidi presentati a lezione, nel materiale relativo alle esercitazioni e in una collezione di articoli scientifici, relativi agli argomenti del corso, forniti dal docente. Tutto il materiale didattico viene reso disponibile su AulaWeb. Il materiale didattico è redatto in lingua inglese.​

DOCENTI E COMMISSIONI

Ricevimento: Il docente è disponibile su appuntamento presso il suo ufficio all’ultimo piano di Villa Bonino, Viale Causa 13, 16145, Genova, oppure presso Casa Paganini, Piazza S. Maria in Passione 34, 16123, Genova. Per prendere un appuntamento inviare una e-mail a gualtiero.volpe@unige.it.

LEZIONI

Modalità didattiche

Il corso prevede lezioni frontali ed esercitazioni (approssimativamente 32 ore di lezioni frontale e 16 ore di esercitazioni per un totale di 48 ore). Le lezioni frontali hanno l’obiettivo di introdurre i concetti e le tecniche oggetto dell’insegnamento. Le esercitazioni consentono di applicare i concetti e le tecnologie viste a lezione in specifici casi di studio. Gli studenti possono seguire le esercitazioni con i propri laptop in aula. Le esercitazioni fanno uso di strumenti software per l’analisi del gesto e del movimento e per l’elaborazione audio. Il corso si tiene in lingua inglese.

ORARI

L'orario di tutti gli insegnamenti è consultabile su EasyAcademy.

ESAMI

Modalità d'esame

L’esame prevede lo svolgimento di un progetto didattico assegnato dal docente ed una prova orale. Il progetto didattico riguarda la progettazione di un sistema multimodale interattivo per una specifica applicazione e può comprendere lo sviluppo di moduli software di elaborazione audio o video per l’analisi del comportamento dell’utente, l’approfondimento di specifici argomenti presentati durante il corso, attraverso ricerche bibliografiche mirate, l’analisi di soluzioni esistenti e la valutazione delle prestazione di algoritmi. La prova orale consiste nella presentazione e discussione con il docente dei risultati del progetto, integrata da approfondimenti su argomenti affrontati durante il corso.

Modalità di accertamento

Il progetto valuterà la capacità dello studente di analizzare un caso di studio, di valutare l’opportunità di sviluppare un sistema multimodale interattivo in tale contesto, di progettare un sistema multimodale interattivo e di applicare alcune delle tecnologie apprese nel corso delle lezioni. La prova orale permetterà di verificare il grado di conoscenza e di comprensione degli aspetti teorici fondamentali relativi ai sistemi multimodali (motivazioni, architetture logiche, linee guida per la progettazione) nonché la conoscenza dei principali dispositivi per l’acquisizione di dati e delle tecniche per la rappresentazione e l’analisi automatica del comportamento dell’utente. Saranno valutati la qualità del progetto e dell’esposizione, la capacità di ragionamento critico sul progetto realizzato, l’utilizzo corretto del lessico specialistico, la profondità della conoscenza degli argomenti del corso e la capacità di illustrarne i contenuti.

ALTRE INFORMAZIONI

Sono disponibili tesi di laurea magistrale che riguardano gli argomenti del corso e che prevedono la progettazione e lo sviluppo di sistemi multimodali interattivi in ambiti di interesse per la ricerca scientifica e tecnologica condotta presso il centro di ricerca Casa Paganini – InfoMus del DIBRIS (www.casapaganini.org). Per gli studenti interessati, il corso offre le conoscenze teoriche e pratiche utili ad affrontare il lavoro di tesi.