Science des Données Biologiques

Université de Mons




Apprendre à analyser des données à l'UMONS


La science des données se développe dans un monde submergé d’informations en tous genres. En biologie, le flux grandissant des données nécessite la maîtrise d’outils qui permettent de les analyser. L’objectif de cette série de cours, dispensés dans le cursus de biologie à la Faculté des Sciences de l’Université de Mons en Belgique, est de former nos étudiants aux techniques et bonnes pratiques qui feront partie intégrante de leur future carrière dans un contexte de science ouverte et reproductible.



Science des données I : visualisation et inférence

L’objectif de ce premier cours, dispensé en seconde année de bachelier, est de familiariser les étudiants avec des outils ouverts et professionnels tels que R, RStudio et la SciViews Box pour importer, transformer et visualiser les données. L’inférence via les tests d’hypothèses est également abordée.


Science des données II : analyse et modélisation

Ce second cours, en troisième année de bachelier, aborde deux sections très importantes des sciences des données: les techniques exploratoires multivariées d’analyse de données, et les modèles utilisés en régression.


Science des données III: exploration et prédiction

Ce cours de master 1 en Biologie des Organismes et Eologie (BOE) et Biochimie, Biologie Moléculaire et Cellulaire (BBMC) aborde des notions plus avancées, notamments les algorithmes de classification supervisée (“machine learning”), l’analyse des séries spatio-temporelles et les régressions non linéaires, y compris les modèles de croissance.


Science des données IV: pratique

Ce cours à option de Master 2 BBMC et BOE approfondi offre la possibilité aux étudiants de greffer un travail de recherche reproductible directement appliquée à leurs propres données issues de leur mémoire de fin d’études. Ils analyseront leurs données selon l’état de l’art et avec un regard critique, et utiliseront git, R Markdown et la SciViews Box pour aboutir à une analyse complètement reproductible et correctement documentée.


Science des données V: recherche reproductible

Ce cours à option de Master 2 BBMC et BOE approfondi est le complément idéal pour les biologistes qui ont suivi les autres cours et veulent se perfectionner dans l’art d’analyser des données biologiques. Ils apprendront notamment à modulariser leurs analyses, à utiliser des bases de données et se perfectionneront dans l’utilisation de R et de RStudio.


Méthode d'enseignement

Jusqu’à l’année académique 2017-2018, cet enseignement était constitué de cours ex cathedra classiques, suivis de séances d’exercices. A partir de l’année académique 2018-2019, nous révisons progressivement le programme et le matériel pédagogique avec:

  • Des vidéos et tutoriaux à utiliser en classes inversées
  • Des challenges et cas concrets de données à analyser
  • Des exercices d’(auto-)évaluation interactifs
  • Une organisation Github Classroom et un site blogdown à disposition des étudiants pour construire leurs propre base de connaissances


Matériel éducatif lié à ces cours


Voici la liste des modules couverts par les cinq cours. L’ensemble du matériel pédagogique est centralisé sur la plateforme Moddle (pour les étudiants enrôlés à l’UMONS). Voyez aussi les liens ci-dessus pour accéder aux différents éléments hors UMONS.


Cours I

Introduction - Logiciels & outils (R, RStudio, git & Github)
Visualisation - Graphiques
Traitement des données - Importation, conversion, manipulation
Tests d'hypothèses - Chi2, t, ANOVA, correlation

Cours II

Modèles linéaires (généralisés)
Modèles non linéaires, régression robuste et quantile
Distances & classification hiérarchisée
K moyens, SOM, ACP, AFC, MFA & MDS

Cours III

Classification supervisée - Bases & métriques
ADL, SVM, random forest, apprentissage profond
Series spatio-temporelles - description, décomposition & régularisation
Statistiques spatiales - cartes & krigeage

Cours IV

Gestion de gros projets sour RStudio
Dates, données circulaires, textuelles & expressions régulières
Modularisation du code & fonctions
Données ouvertes, principe FAIR

Cours V

Organisation de code, orienté-objet, packages
Test, optimisation de code et intégration continue
Bases de données SQL & noSQL
Calcul en parallèle et sur le cloud