STATISTICA DESCRITTIVA

STATISTICA DESCRITTIVA

_
iten
Codice
52480
ANNO ACCADEMICO
2017/2018
CFU
8 cfu al 1° anno di 8766 STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI (L-35) GENOVA

8 CFU al 1° anno di 8760 MATEMATICA (L-35) GENOVA

SETTORE SCIENTIFICO DISCIPLINARE
SECS-S/01
LINGUA
Italiano
SEDE
GENOVA (STATISTICA MATEM. E TRATTAM. INFORMATICO DEI DATI )
periodo
2° Semestre
materiale didattico

PRESENTAZIONE

L’insegnamento introduce lo studente all’analisi statistica descrittiva di dati multivariati, precisando da un punto di vista teorico le metodologie utilizzate e sviluppando le competenze essenziali per l’interpretazione dei dati oggetto di indagine. Parte integrante sono le esercitazioni in laboratorio.

OBIETTIVI E CONTENUTI

OBIETTIVI FORMATIVI

Fornire i principali concetti e metodologie per l'analisi dei dati univariati e multivariati da un punto di vista descrittivo.

OBIETTIVI FORMATIVI (DETTAGLIO) E RISULTATI DI APPRENDIMENTO

L'analisi descrittiva (o esplorativa) dei dati comprende quelle tecniche che permettono di riassumere le loro caratteristiche principali, spesso con strumenti grafici. Questo è il primo e fondamentale passo di ogni analisi statistica. Le metodologie necessarie, specie quelle multivariate, richiedono strumenti matematici, in particolare algebrici e geometrici, che vengono sviluppati in insegnamenti svolti in parallelo.

Obiettivi non secondari riguardano il raggiungimento di competenze trasversali, quali la capacità di lavorare in gruppo, la capacità di redarre relazioni con i risultati delle analisi statistiche e la formazione di una mentalità flessibile che permetta di adattarsi facilmente a nuove situazioni. Queste competenze sono sviluppate a partire dalle attività di laboratorio informatico, dove si potenziano anche abiltà informatiche tramite l’uso del software R per l'analisi di dati.

 

Modalità didattiche

L'insegnamento consta di circa 50 ore di lezioni in aula (comprensive di teoria ed esercizi alla lavagna) e di circa 22 ore di esercitazioni in laboratorio informatico. Sono previste inoltre circa 8 ore di esercitazioni guidate.

Finalità delle esercitazioni in laboratorio è, oltre all'acquisizione di un linguaggio di programmazione orientato alla statistica, l'applicazione delle metodologie statistiche presentate a lezione per interpretazione i dati oggetto di indagine; questa attività dovrebbe permettere allo studente anche di verificare il livello di comprensione della teoria statistica appresa e del suo uso pratico.

Le esercitazioni guidate consistono nello svolgimento di esercizi da parte degli studenti (anche a gruppi); la presenza dei due docenti in aula dovrebbe permette di chiarire dubbi e superare eventuali difficoltà sorte nello svolgimento.

PROGRAMMA/CONTENUTO

Statistica univariata e bivariata.
Variabili qualitative. Frequenze assolute e relative, legge di una variabile, legge congiunta e leggi marginali di due variabili, leggi condizionate (profili riga e profili colonna), indipendenza; rappresentazioni grafiche.
Variabili quantitative. Funzioni di distribuzione, di distribuzione cumulata e dei quantili e loro rappresentazioni grafiche; indici di centralità e dispersione basati sui momenti e sui quantili e loro proprietà legati alle metriche L1 e L2. Covarianza e correlazione tra due variabili quantitative. Interpretazione geometrica di varianza, covarianza, correlazione

Statistica multivariata.
Cluster analysis. Aggregazione gerarchica secondo la distanza e secondo l’inerzia. Indici di aggregazione e dendogramma. Ultrametrica. Aggregazione non gerarchica (centri mobili e k-means, termine del processo di aggregazione, scelta dei punti iniziali, raggruppamenti stabili). Aggregazione delle variabili.
Analisi in componenti principali. Rappresentazione di n dati quantitativi multivariati (punti riga della matrice dei dati, in Rp) in uno spazio vettoriale di dimensione ridotta e fedeltà della rappresentazione.  Cambio di base (autovettori della matrice di correlazione). Proprietà delle nuove variabili. Altra interpretazione geometrica della correlazione fra variabili e corrispondente rappresentazione grafica.
Regressione multipla. Spazio vettoriale generato dalle variabili esplicative (punti colonna della matrice dei dati, in Rn).   Minimi quadrati lineari e significato geometrico della minimizzazione dei residui. Significato geometrico della decomposizione della varianza della variabile risposta (in Rn). Bontà del modello: grafico dei residui e indice R-sq (e sua interpretazione geometrica). Analisi della varianza a una via e decomposizione in varianza fra e dentro i gruppi.

Esercitazioni al calcolatore con il software R

TESTI/BIBLIOGRAFIA

M. P. Rogantin (2016) Statistica descrittiva
(dispense disponibili su AulaWeb e al link http://www.dima.unige.it/~rogantin/StDescrittiva2/StatDescrittiva.pdf)

Maindonald J., Braun W. J, (2010). Data analysis and graphics using R: an example-based approach. 3. ed. Cambridge University press

I.T. Jolliffe (2002). Principal Component Analysis. Springer Series in Statistics

DOCENTI E COMMISSIONI

Commissione d'esame

ERNESTO DE VITO (Presidente)

MARIA PIERA ROGANTIN (Presidente)

EVA RICCOMAGNO

LEZIONI

Modalità didattiche

L'insegnamento consta di circa 50 ore di lezioni in aula (comprensive di teoria ed esercizi alla lavagna) e di circa 22 ore di esercitazioni in laboratorio informatico. Sono previste inoltre circa 8 ore di esercitazioni guidate.

Finalità delle esercitazioni in laboratorio è, oltre all'acquisizione di un linguaggio di programmazione orientato alla statistica, l'applicazione delle metodologie statistiche presentate a lezione per interpretazione i dati oggetto di indagine; questa attività dovrebbe permettere allo studente anche di verificare il livello di comprensione della teoria statistica appresa e del suo uso pratico.

Le esercitazioni guidate consistono nello svolgimento di esercizi da parte degli studenti (anche a gruppi); la presenza dei due docenti in aula dovrebbe permette di chiarire dubbi e superare eventuali difficoltà sorte nello svolgimento.

INIZIO LEZIONI

In accordo con il calendario accademico approvato dal Consiglio di Corsi di Studi.

ORARI

L'orario di tutti gli insegnamenti è consultabile su EasyAcademy.

Vedi anche:

STATISTICA DESCRITTIVA

ESAMI

Modalità d'esame

Prova scritta + relazioni delle esercitazioni al calcolatore o parte alternativa + prova orale

La prova scritta vale 20 punti, le relazioni 10 punti. Si accede all'orale con la somma dei voti delle relazioni e della prova scritta.

Modalità di accertamento

Prova scritta
La prova scritta può essere sostituita da due prove intermedie (compitini), se l’esito di entrambe è positivo (≥ 12); il primo compitino viene svolto durante il periodo delle lezioni, il secondo compitino viene svolto contemporaneamente alla prima prova scritta finale (giugno).
La prova scritta (o i compitini) è articolata in vari esercizi, di tipo sia più calcolativo che interpretativo. È anche richiesto il commento di parti di output R. Sul testo d'esame è indicato il punteggio.
Relazioni delle esercitazioni al calcolatore
Concorrono al voto finale con la media dei voti delle singole relazioni solo se il voto della prova scritta è maggiore o uguale a 12 e se la frequenza alle esercitazioni in laboratorio è di almeno l’80%.
Le relazioni vanno consegnate ai docenti una quindicina di giorni dopo la fine dello svolgimento in laboratorio (le date precise saranno concordate nel corso dell’anno).
Le relazioni sono valutate sia per l'uso appropriato delle metodologie matematico statistiche che per la padronanza delle tecniche espositive.
Gli studenti che non possono frequentare svolgono una parte suppletiva di programma (le modalità specifiche sono da concordare con i docenti).
Prova orale
È volta a verificare la comprensione generale degli aromenti trattati e delle metodologie specifiche, compresa la padronanza delle dimostrazioni dei risultati ottenuti.