Science des données

Bandeau Big data

Etudier la science des données

Une part rapidement croissante des activités humaines laisse des traces sous la forme de masses de données informatiques que l’on peut exploiter en vue d’une meilleure gestion ou de meilleurs services. Les données peuvent être issues d’un encodage, par exemple des transactions bancaires, ou provenir de capteurs allant de la mesure de température à la caméra haute définition. Elles sont souvent produites à un rythme soutenu, accumulées en grand volume et proviennent de sources diverses, sous des formats variés allant de la structure stricte utilisée dans une base de données à des formats tout à fait libres de textes ou d’images. Le terme « big data » fait référence à ces données accumulées et les techniques qui permettent de les analyser et les exploiter sont reprises sous l’appellation « science des données » ou « data science ».

 

 

Dans le monde économique, « big data » et « data science » passent avec une rapidité déstabilisante du stade de concept à explorer à celui d’outil incontournable pour développer/améliorer de nouveaux produits et/ou optimiser le fonctionnement des entreprises. Et cela n’est pas limité au secteur de l’IT, mais touche des domaines aussi divers que la chimie, la mécanique, la vente par internet, l’énergie, la gestion hospitalière, ... Cette révolution du « big data » est très souvent essentielle pour le développement, ou même la survie des entreprises dans un monde de plus en plus compétitif. (Pour en savoir plus, consulter l'article du Monde du 12.05.2017)

 

Avec cet engouement des entreprises pour le « big data », de nouvelles questions scientifiques et techniques apparaissent naturellement. Ces questions scientifiques sont notamment axées autour des points suivants :

  • Comment extraire plus d’informations pertinentes à partir des données existantes par le biais de l’apprentissage supervisé ? On peut mentionner ici les récents progrès dans le domaine des réseaux de neurones artificiels (deep learning) et dans le domaine des méthodes de type ‘forêts aléatoires’.
  • Comment aller au-delà des paradigmes d’apprentissage automatique supervisé pour étendre le champ de problèmes pratiques ciblés ? On peut mentionner ici les paradigmes de type apprentissage par renforcement qui permettent souvent d’extraire des politiques de décisions bien plus sophistiquées que celles provenant de l’apprentissage supervisé classique, comme des politiques permettant d’apprendre à conduire des voitures ou à jouer à des jeux tels que le GO ou encore des jeux vidéo de plus en plus sophistiqués.
  • Comment enrichir les données existantes dans un contexte où l’obtention de nouvelles données peut avoir un coût significatif ?
  • Comment incorporer dans des chaînes d’apprentissage « big data » des données de plus en plus déstructurées, comme par exemple des séquences vidéos, du texte, et des traces d’interactions homme-machine.

 

Ces questions sont souvent complexes et pour développer des produits/solutions « big data », il est dès lors important pour les entreprises de pouvoir s’adjoindre des spécialistes spécifiquement formés au domaine de la science des données. Il en va bien évidement de même pour les nombreux laboratoires de recherche dépendant de plus en plus de « data scientists » de qualité pour exploiter leurs données expérimentales.

 

Alors qu’à l’aube du monde des « big data », il était encore possible d’imaginer qu’un ingénieur, un informaticien, ou un mathématicien de formation générale aurait pu remplir de manière correcte un travail destiné à un vrai « data scientist », ce n’est clairement plus le cas à l’heure actuelle vu la complexité de la majorité des problèmes « big data » que l’on rencontre et les progrès très rapides sur les plans scientifique et technologique.

 

Cette complexité, couplée à la vitesse à laquelle évolue le secteur du big data, induit d’ailleurs assez naturellement le fait qu’un « data scientist » de qualité doit avoir un bagage solide en mathématique, en statistique et en informatique, qui lui servira de fondations pour faire évoluer par la suite une expertise en apprentissage automatique et, de manière plus générale, en intelligence artificielle. Ce bagage solide plus théorique lui permettra en effet de bien comprendre la portée des solutions « big data » existantes, de pouvoir les faire évoluer et aussi de suivre l’évolution très rapide du secteur tout au long de sa carrière.

 

C’est une telle formation que ce master en Science des données a la prétention de vouloir offrir et il y a fort à parier, vu l’essor du « big data » et l’expertise réunie dans cette thématique à l’Université de Liège, qu’elle aura un succès au niveau régional et international. Elle sera également d’un vrai attrait pour tout un public de scientifiques déjà diplômés et soucieux de suivre une formation pouvant donner une nouvelle dynamique à leur carrière. Le métier émergent ciblé, celui de « data scientist », consiste à détecter les possibilités d’exploitation de données et à réaliser et mettre en œuvre les systèmes informatiques concrétisant ces possibilités.

 

Compétences

 

Maîtriser les fondements scientifiques

Les fondements de la science des données relèvent des mathématiques appliquées (calcul des probabilités, statistiques, optimisation), de l’informatique (algorithmique, structures de données, automates, complexité), et de l’intelligence artificielle (apprentissage automatique, représentation de la connaissance, raisonnement automatique).

 

Afin de développer des compétences pérennes et une capacité de s’adapter aux techniques du futur, il est capital de maîtriser ces fondements scientifiques.

Savoir mettre en œuvre les outils informatiques

L’objet de la science des données est d’extraire des connaissances synthétiques et exploitables, en valorisant des données captées à partir du monde réel. Ces données sont souvent de qualité hétérogène, viennent généralement en grands volumes, et sous des formes parfois très diverses (textes, valeurs numériques, images, séries temporelles). Les types de connaissances à extraire sont également fort diverses (modèles prédictifs de comportements, groupes de comportement homogènes, règles de décision, variables pertinentes). Les outils technologiques à disposition pour l’extraction de connaissances à partir de données comprennent les boîtes à outils de machine learning et d’optimisation, les techniques de visualisation des données, les langages et paradigmes de programmation parallèle, les systèmes de stockage et de calcul massivement parallèles et distribués.

 

La pratique de la science des données requiert une très bonne connaissance des possibilités et limitations de ces outils et de savoir les mettre en œuvre pour développer une solution.

Savoir développer une solution en environnement réel

Le développement d’une solution ‘big data’ comporte un certain nombre d’étapes, comprenant la définition des connaissances visées, le choix des données à exploiter, le prototypage d’un pipeline de traitement de données, la collecte des données, le test et l’optimisation du pipeline, la présentation des résultats, la mise au point d’un cycle de maintenance du pipeline pour en assurer la viabilité. Afin que la solution développée rencontre les besoins des utilisateurs, et puisse fonctionner de façon efficace et pérenne dans l’environnement cible (laboratoire, industrie, administration, etc.), il est nécessaire d’impliquer le ‘client’ lors de la conception, afin de comprendre la nature des données et des besoins, ainsi que les contraintes du terrain.

 

Il faut donc à la fois maîtriser les principes de la gestion d’un projet ‘big data’ et être capable de dialoguer avec les experts du domaine cible et les responsables informatiques du client, afin de faire les bons choix techniques lors du développement d’un projet ‘big data’.

Savoir faire une analyse coûts-bénéfices

Afin d’aider les entreprises à faire les bons choix de projets d’exploitation de données, il est nécessaire de savoir analyser les coûts et les bénéfices financiers d’une telle opération, à la fois en ce qui concerne les premières phases, et dans la durée.  

 

L’expert en science des données doit donc disposer d’une méthodologie lui permettant de faire une analyse coûts-bénéfices sur base des informations que lui fournira l’entreprise cliente, et en dialogue avec le management stratégique de cette entreprise.

Comprendre les implications légales et sociétales

La mise en œuvre d’applications de la science des données peut conduire à des modifications de la répartition du travail dans les entreprises et/ou à exploiter des informations quant aux comportements de personnes (travailleurs, clients, public général). Pour être viables, elles doivent donc respecter la législation sur la vie privée et être acceptables par la société et le personnel des entreprises.

 

Le ‘data scientist’ doit être conscient des implications légales et sociétales des projets dans lesquels il va s’engager.

 

Conditions d’accès et prérequis

 

Master en ingénieur civil en science des données

Le Master en Ingénieur Civil en Science des Données sera directement accessible aux étudiants titulaires d’un bachelier (180 ECTS) en Science de l’Ingénieur (orientation ingénieur civil).

 

Il sera accessible, moyennant un aménagement du programme et un complément de cours pour au plus 15 ECTS aux étudiants titulaires d’un bachelier en Science de l’Ingénieur (orientation ingénieur architecte et orientation bioingénieur) et en Ingénieur de Gestion.

 

Il sera accessible, moyennant un complément de cours pour au plus 60 ECTS aux étudiants titulaires d’un bachelier en science industrielles de haute école.

 

Les étudiants qui sont déjà titulaires d’un Master en Ingénieur Civil en Informatique auront accès à un programme réduit d’au maximum 75 ECTS.

 

Prérequis

Les étudiants qui ont accès à ce master ont donc tous un profil d’ingénieur (mais pas nécessairement civil), et ont tous suivi des cours de bases en mathématique, physique et chimie. Toutefois, afin d’ôter toute ambiguïté sur les prérequis, notamment en mathématique, la liste de cours suivante servira de référence :

 

MATH0002    Analyse mathématique 1

MATH0003    Géométrie

MATH0013    Algèbre

MATH0062    Eléments du calcul des probabilités

MATH0487    Eléments de statistiques

MATH0488    Eléments de processus stochastiques

INFO2009     Introduction à l’informatique

MATH0006    Introduction to numerical analysis

MECA0003    Mécanique rationnelle

SYST0002     Modélisation et analyse des systèmes

 

En outre, ces étudiants devront avoir les bases suivantes en informatique :

INFO0902       Structures des données et algorithmes

INFO0009       Bases de données (organisation générale)

INFO0054       Programmation fonctionnelle

INFO0062       Object-oriented programming

 

En cas d’admission à ce master, les cours non suivis antérieurement seront ajoutés en début de cursus ; ce qui peut conduire à un remaniement du programme et/ou à des crédits supplémentaires.

 

Master en science des données

 

Conditions d’accès

Le master en Science des données sera directement accessible aux étudiants titulaires d’un bachelier (180 ECTS) en Science informatiques, ou en Sciences de l’ingénieur (orientation ingénieur civil).

 

Il sera accessible, moyennant un aménagement du programme et un complément de cours pour au plus 15 ECTS aux étudiants titulaires d’un bachelier en Sciences de l’ingénieur (orientation ingénieur architecte et orientation bioingénieur), en Sciences mathématiques, en Sciences économiques et de gestion et en Ingénieur de gestion.

 

Il sera accessible, moyennant un complément de cours pour au plus 60 ECTS aux étudiants titulaires d’un bachelier en informatique de gestion, informatique et systèmes ou en sciences industrielles de haute école.

 

Les étudiants qui sont déjà titulaires d’un Master en Science informatique ou bien d’un Master en Ingénieur Civil en Informatique, ou qui peuvent faire preuve d’une expérience professionnelle significative dans le domaine de l’informatique ou de la science des données, auront accès à un programme réduit d’au maximum 75 ECTS.

 

Prérequis

Les étudiants admis à ce master ont des profils plus variés. Il est donc essentiel de déterminer précisément les cours prérequis. La liste de cours suivante servira de référence :

MATH2007    Mathématique

MATH2019    Mathématiques pour l'informatique 1

MATH2020    Mathématiques pour l'informatique 2

MATH0499    Théorie des graphes

MATH0495    Eléments du calcul des probabilités

MATH0487    Eléments de statistiques

MATH1222    Introduction aux processus stochastiques, Partim 1 : Chaînes de Markov

INFO0946     Introduction à la programmation

INFO2050     Programmation avancée

INFO0009     Bases de données (organisation générale)

MATH0500    Introduction à l'algorithmique numérique

INFO0054     Programmation fonctionnelle

INFO0062     Object-oriented programming

 

En cas d’admission à ce master, les cours non suivis antérieurement seront ajoutés en début de cursus ; ce qui peut conduire à un remaniement du programme et/ou à des crédits supplémentaires.

 

Programme et Langue d'enseignement

 

Description synthétique des programmes et des cours (Master en ingénieur civil en science des données et Master en science des données)

 

Consulter le programme :

 

Le programme est organisé en anglais, et seuls des cours en anglais y figurent explicitement. Un niveau B2 sera prérequis.

 

 

 


Contact(s) : fsa@ulg.ac.be