Vai al contenuto principale
Oggetto:
Oggetto:

Statistical analysis for environmental biology

Oggetto:

Statistical analysis for environmental biology

Oggetto:

Anno accademico 2020/2021

Codice dell'attività didattica
SVB0184
Docente
Dott. Daniel Edward Chamberlain
Corso di studi
[f008-c508] LM in Biologia dell'Ambiente (Classe LM-06)
Anno
2° anno
Periodo didattico
Da definire
Tipologia
A scelta dello studente
Crediti/Valenza
4
SSD dell'attività didattica
BIO/07 - ecologia
Modalità di erogazione
Tradizionale
Lingua di insegnamento
Italiano/English
Modalità di frequenza
Lezioni facoltative e esercitazioni obbligatorie
Tipologia d'esame
Scritto ed orale
Prerequisiti

Elementi di Statistica (LTSB), Elaborazione dei dati sperimentali (LTSN), o un corso equivalente di altri dipartimenti/università; una conoscenza di base delle analisi statistiche, e dell’ambiente statistico R.


Elementi di Statistica (LTSB), Elaborazione dei dati sperimentali (LTSN), or equivalent at other universities/departments that provide basic statistical knowledge and programming skills in the R statistical environment.
Oggetto:

Sommario insegnamento

Oggetto:

Obiettivi formativi

I principali obiettivi formativi sono: 

  • acquisire capacità nelle tecniche statistiche avanzate in modo da poter effettuare analisi esplorative, che includono strumenti grafici per la presentazione dei dati, e poter verificare ipotesi statistiche inerenti la biologia dell’ambiente;
  • acquisire le competenze necessarie per presentare e analizzare i dati, utilizzando l'ambiente statistico R;
  • essere in grado di applicare l'esperienza acquisita nel contesto di una gamma di discipline afferenti alla biologia dell’ambiente, maturando una competenza sufficiente a portare avanti, nei settori accademici e professionali, analisi statistiche avanzate, ricerche sull’effetto del cambiamento ambientale sulla natura e l’uomo, monitoraggi della biodiversità e ambientali e consulenza in campo ecologico/ambientale.

 

The principal learning objectives are:

  • To acquire expertise in advanced statistical techniques in order to carry out explorative analyses, including graphical tools for data presentation, and to test statistical hypotheses in environmental biology;
  • To acquire the necessary skills to present and analyse data using the R statistical environment;
  • To be able to apply the expertise and skills in the context of a range of disciplines within environmental biology and so be in a position of sufficient competence to carry out advanced statistical analyses in either academic or professional sectors, including biodiversity monitoring, environmental monitoring and scientific consultancy.
Oggetto:

Risultati dell'apprendimento attesi

Al termine del corso, lo studente dovrebbe possedere le seguenti conoscenze e capacità:

 

Conoscenza e capacità di comprensione

  • Conoscenza approfondita dei diversi tipi di dati e di distribuzione dei dati, riconoscendo le analisi più adattate per il loro trattamento
  • Dimestichezza con il programma R, e capacità di utilizzare una gamma di ‘package’ di R per analisi statistiche e presentazione dei risultati
  • Conoscenza approfondita di GLM con diverse distribuzioni di dati (Gaussiano, Poisson, binomiale)
  • Capacità di valutare statisticamente il ‘fit’ del modello e di eseguire il processo di ‘model selection’
  • Comprensione di base delle analisi statistiche più complesse che coinvolgono tecniche multivariate, approcci information-theoretic, e approcci di modellazione mista.

Capacità di applicare conoscenza e comprensione

  • Capacità di valutare criticamente una gamma di tecniche analitiche utilizzate in letteratura scientifica
  • Capacità di pianificare ed eseguire autonomamente analisi statistiche in R per una serie di tecniche analitiche

Abilità communicative

  • Capacità di presentare i metodi statistici e le analisi statistiche utilizzate, nonché l’interpretazione dei risultati
  • Conoscenza degli strumenti grafici utilizzati per sintetizzare i dati e presentare i risultati

At the end of the course, the student should possess the following knowledge and skills:

Knowledge and understanding

  • An in-depth knowledge of different types of data and data distributions, and how to identify the most appropriate analyses for them
  • Familiarity with the R language and the ability to use a range of packages for statistical analyses and presentation of results
  • A thorough understanding of GLMs with different underlying data distributions (Gaussian, Poisson, binomial)
  • An ability to statistically assess model fit and to carry out model selection
  • A basic understanding of more complex statistical analyses involving multivariate techniques, model averaging and mixed modelling approaches

Applying knowledge and understanding

  • An ability to critically assess a range of analytical techniques employed in the scientific literature
  • An ability to plan and carry out statistical analyses in R autonomously for a range of analytical techniques

Communication

  • The capacity to present statistical methods and analyses, and to interpret their results

  • A broad knowledge of graphical tools to summarise data and present results

Oggetto:

Modalità di insegnamento

Il corso coprirà un totale di 32 ore (4 CFU), composto da 24 ore di lezioni frontali e 8 ore di attività. Il corso si avvarrà di programma di insegnamento integrato che includerà sia lezioni in presenza sia lezioni online, come attività e-learning su Moodle, lezioni in live-streaming seguite da discussioni online, e lezioni in presenza con piccoli gruppi di studenti. Ogni settimana, ci sarà la possibilità, per gli studenti con necessità di supporto supplementare, di effettuare dei ‘surgeries’ (incontri con il docente al di fuori dell’orario per le lezioni frontali, in presenza o online) della durata di un’ora. Nel caso in cui l’insegnamento in presenza non sia possibile a causa delle misure di contenimento per il Covid-19, l’insegnamento (includendo lezioni, attività e-learning e surgeries) si terrà esclusivamente a distanza. Tutte le lezioni si terranno su Webex, e saranno registrate. Le registrazioni saranno rese disponibili su Moodle.

 

 

A total of 32 hours (4 CFU), comprising 24 hours of lectures and 8 hours of class activities. The course will utilize a programme of integrated teaching activities which will include both lessons and discussion groups in person and online, including use of e-learning tools on Moodle, live-streamed lessons followed by online discussions, and face-to-face teaching of smaller groups. Also weekly hour-long surgeries, in addition to timetabled lessons, will be run for additional help (either online or in person). If teaching in person is not possible due to containment measures in place due to the Covid-19 emergency, teaching (including lessons, e-learning activities and surgeries) will be exclusively online. All online lessons will take place on Webex. All lessons will be recorded and will be made available to students.

Oggetto:

Modalità di verifica dell'apprendimento

Il 50% del voto finale sarà determinato sulla base di un esame teorico scritto, e l’altro 50% sarà determinato sulla base delle valutazioni di un’esercitazione in gruppo, e un’esercitazione singola. Il massimo voto complessivo sarà 30 punti. Lodi saranno assegnate per contribuiti eccezionali durante il corso, secondo il giudizio del docente.

L’esame teorico scritto normalmente durerà 1 ora, e valuterà la conoscenza statistica generale degli studenti: consisterà in 15 domande (1 punto ciascuna) a risposta aperta che richiedono una risposta breve (2-3 righe), per un totale di 15 punti.

In caso di impossibilità a tenere gli esami in presenza a causa delle misure di contenimento per il Covid-19, sarà invece un esame scritto telematico su Moodle e Webex, che durerà 15 minuti e consisterà in 7 domande aperta, per un totale di 15 punti.

Le esercitazioni che saranno valutate sono due.  Nella prima, ogni gruppo (massimo tre studenti) valuterà degli articoli scientifici in relazione all’adeguatezza dell’analisi usata. Ogni gruppo dovrà illustrare una breve presentazione (5 minuti, online o in presenza) sulla propria attività di valutazione degli articoli. Ogni studente sarà valutato in relazione al proprio ruolo nella presentazione del gruppo, e al contributo al gruppo in generale.  La valutazione assegnerà un massimo di 5 punti.  Nella seconda esercitazione, ogni studente dovrà analizzare un dataset per testare un’ipotesi statistica (online o in presenza).  La valutazione (10 punti al massimo) riguarderà la presentazione dei risultati dell’analisi.  L’esercitazione valuterà la capacità di analizzare dati e di interpretare i risultati in un modo indipendente.

Ogni esame o esercitazione verrà reso disponibile sia in inglese che in italiano.

The final mark will be decided based on a written exam (50%) and class exercises (50%), and will have a maximum mark of 30. Bonus marks will be awarded for outstanding work at the discretion of the teacher.

The written exam will normally be of 1 hour’s duration (15 marks), consisting of 15 open questions (requiring brief answers of 3-4 lines, or a simple graphical sketch).  This exam will test the student’s overall general statistical knowledge gained during the course. 

In the event that measures imposed for the containment of the COVID-19 outbreak are in place, there will instead be a shorter exam online using Moodle and Webex, of 15 minutes' duration, consisting of 7 open questions for a total of 15 marks.

There will be two assessed exercises. First, the paper critique, in which scientific papers (in English) will be assessed by each group (of maximum 3 students) in relation to the statistical techniques used. Each group will then give a presentation (online or in person) that summarises the objectives, and the methods and analyses used to achieve them, with a particular focus on the appropriateness of the statistics applied. Students will be marked according to their final presentations (5 marks), which will test their ability to understand and critically assess statistical analyses carried out in the published literature. Second, the data analysis exercise, where each student will analyse a particular data set, and then subsequently, they will have to present their results (online or in person). This will test the students’ ability to analyse data independently and interpret the outputs correctly. The presentation will be assessed (10 marks).

Exams and evaluated class exercises will be available both in English and Italian.

Oggetto:

Programma

Il corso userà l’ambiente statistico R.

  • INTRODUZIONE: Riassunto e revisione dei concetti chiave di statistica; esplorazione dei dati; distribuzioni dei dati, trasformazioni; la base del test statistico e valori-P; indipendenza; test parametrici e test non-parametrici.
  • MODELLI LINEARI SEMPLICI: Regressione lineare e previsione.
  • GENERALIZED LINEAR MODELS: Regressione non-lineare; regressione multivariata; inter-correlazioni e Variance Inflation Factor;
  • SEMPLIFICAZIONE DEI MODELLI E SELEZIONE DEI MODELLI: Metodi stepwise e MAMs; Selezione sulla base di AIC.
  • POISSON GLM: La funzione log-link; dispersione; model diagnostics.
  • REGRESSIONE LOGISTICA: Presenza/assenza e syntax successes/failures; la funzione logit-link.
  • INTRODUZIONE AGLI EFFETTI CASUALI: Effetti gerarchici e modelli misti.
  • INTRODUZIONE AI METODI MULTIVARIATI: Principal Components Analysis; Detrended Correspondence Analysis; Discriminant Function Analysis.
  • INTRODUZIONE ALLA MULTI-MODEL INFERENCE: Model weights; model averaging.
  • VALUTAZIONE DI ARTICOLI SCIENTIFICI: Attività di gruppo (tre studenti al massimo) in cui saranno valutati articoli scientifici (in inglese) in relazione alle analisi statistiche usate.
  • PRESENTAZIONE DEI RISULTATI STATISTICI: Attività di gruppo in cui ogni gruppo esporrà una breve presentazione sulla base dell’analisi dei data-set forniti.

The course will use the R statistical environment throughout, introducing key analytical packages, graphical tools and modelling statements.

  • INTRODUCTION: Summary and revision of key concepts in statistics: data exploration; data distributions and transformations; the basis of statistical testing and P-values; independence; parametric and non-parametric tests.
  • SIMPLE LINEAR MODELS: Linear regression and prediction.
  • GENERALIZED LINEAR MODELS: Fitting non-linear terms; multivariate regression; collinearity and Variance Inflation Factors.
  • MODEL SIMPLIFICATION & SELECTION: Stepwise methods and MAMs; AIC-based selection.
  • POISSON GLM: The log-link function; dispersion; model diagnostics.
  • LOGISTIC REGRESSION: Presence/absence and events/trials data; the logit-link function.
  • INTRODUCTION TO RANDOM EFFECTS: Accounting for non-independence using mixed models;
  • INTRODUCTION TO MULTIVARIATE TECHNIQUES: Principal Components Analysis; Detrended Correspondence Analysis; Discriminant Function Analysis.
  • INTRODUCTION TO MULTI-MODEL INFERENCE: Model weights; model averaging.
  • EVALUATING SCIENTIFIC PAPERS: A group exercise in which scientific papers (in English) will be assessed, with a particular focus on analytical methods used.
  • PRESENTING STATISTICAL RESULTS: A group exercise where brief presentations will be given based on analyses of provided data sets.

Testi consigliati e bibliografia

Oggetto:

Libri al livello base (utili per ripassare R e l’analisi base)

Beckerman et al. (2017).  Getting started with R.  2nd Edn.  Oxford University press, Oxford.

Zuur et al. (2009).  A beginner’s Guide to R.  Springer, New York.

Libri avanzati (più attinenti al corso)

Zuur et al. (2009).  Mixed Effects Models and Extensions in Ecology with R. Springer, New York.

Crawley (2013). The R Book, 2nd Edition.  Wiley, Chichester.

Materiali diddatici

I seguenti materiali aggiuntivi saranno messi a disposizione dal docente sulle pagine del corso su CampusNet:  PDF delle lezioni; programmi di R utilizzati durante le lezioni; dataset utilizzati durante le lezioni; collegamenti ai siti web utili.

 

Introductory texts (basics of R and statistical analyses):

Beckerman et al. (2017).  Getting started with R.  2nd Edn.  Oxford University press, Oxford.

Zuur et al. (2009).  A beginner’s Guide to R.  Springer, New York.

 

More advanced books

Zuur et al. (2009).  Mixed Effects Models and Extensions in Ecology with R. Springer, New York.

Crawley (2013). The R Book, 2nd Edition.  Wiley, Chichester.

 

Teaching materials

The following material will be available to students on the course webpages on Campusnet:  PDFs of lessons; all R programs used during the lessons; relevant data sets used during the lessons; links to useful websites.



Oggetto:
Ultimo aggiornamento: 01/04/2021 14:32
Location: https://lmbiologia.campusnet.unito.it/robots.html
Non cliccare qui!