L’étude des questions biologiques actuelles nécessite l’acquisition de données qui peuvent être massives (jusqu’à plusieurs millions d’observations). La gestion, puis l’analyse de telles données est donc conditionnée à la maîtrise de la programmation informatique. Ce module a d’abord pour objectif de familiariser les étudiants avec un environnement de travail sur ordinateur plutôt dédié à l’analyse scientifique qu’aux différents media, avec la découverte du système Unix (par opposition à Windows). Il sera ensuite temps d’apprendre les bases d’un langage de programmation (Python), l’un des plus utilisé par les biologistes à travers le monde aujourd’hui. L’étudiant apprendra alors à : (i) utiliser les variables informatiques, objets permettant de stocker l’information et de l’interroger ; (ii) structurer son code et organiser ses instructions afin répondre à la question posée ; (iii) lire des fichiers de données massifs et écrire les résultats son analyse dans un autre fichier ; (iv) transformer ses données des graphiques simples, et ainsi obtenir une première interprétation/évaluation. Ce module d’enseignement permettra donc à n’importe quel futur biologiste, même s’il ne se destine pas à poursuivre dans la bio-informatique, de pouvoir créer des scripts informatiques simples qui lui permettront d’obtenir une première analyse rapide et visuelle à partir d’une grande quantité de données, comme peuvent le générer les nouvelles techniques de séquençage (ou génotypage) à haut débit.
Résumé du contenu :
· Système d'exploitation Unix et commandes Shell
· Langage de programmation Python :
o Variables simples et conteneurs
o Structures conditionnelles et boucles
o Lectures et écritures de fichiers
o Visualisation de données