Cours prévu en deux parties: apprentissage des rudiments du logiciel R et travail sur un projet personnel
- Le logiciel R: Installation et configuration de R, RStudio, RMarkdown, les objets R : vecteurs, tableaux, matrices, dataframe, collecte et nettoyage des données, importation et exportation de données.
Bases de la programmation en R, créer ses propres fonctions, étude de certaines bibliothèques, par exemple dédiées au graphisme, ggplot2, à la science des données tidyverse etc…
Visualisation de données: statistiques descriptives uni et multivariées, cartographie, simulations, lois classiques, tirages aléatoires. Les fonctions R pour la regression linéaire simple, les tests statistiques sur les proportions, moyennes, variances.
- Projet de sciences de données, sur des données réelles choisies par l’étudiant: de la collecte des données, mise en place d’un questionnement, à l'analyse et à la conclusion. Utilisation de techniques vues dans la première partie du cours, éventuellement complétées par un travail spécifique si necessaire. Une ré-utilisation des techniques vues en atelier Maths-Shs en parrallèle est aussi possible ( tests de normalité, anova, contrastes…)
Remarque: Plusieurs TP « types » sont fournis pour servir de modèle dans la première partie du cours, pour des analyses de données ultérieures, on aborde les notions de fiabilité et nettoyage des données, les problème de données manquantes, …