Un « data scientist » de qualité doit avoir un bagage solide en mathématique, en statistique et en informatique, qui lui servira de fondations pour faire évoluer par la suite une expertise en apprentissage automatique et, de manière plus générale, en intelligence artificielle. Ce bagage solide plus théorique lui permettra en effet de bien comprendre la portée des solutions « big data » existantes, de pouvoir les faire évoluer et aussi de suivre l’évolution très rapide du secteur tout au long de sa carrière.exte mis en évidence coloré

vid-img-1

Etudier la science des données

Une part rapidement croissante des activités humaines laisse des traces sous la forme de masses de données informatiques que l’on peut exploiter en vue d’une meilleure gestion ou de meilleurs services. Les données peuvent être issues d’un encodage, par exemple des transactions bancaires, ou provenir de capteurs allant de la mesure de température à la caméra haute définition. Elles sont souvent produites à un rythme soutenu, accumulées en grand volume et proviennent de sources diverses, sous des formats variés allant de la structure stricte utilisée dans une base de données à des formats tout à fait libres de textes ou d’images. Le terme « big data » fait référence à ces données accumulées et les techniques qui permettent de les analyser et les exploiter sont reprises sous l’appellation « science des données » ou « data science ».

Dans le monde économique, « big data » et « data science » passent avec une rapidité déstabilisante du stade de concept à explorer à celui d’outil incontournable pour développer/améliorer de nouveaux produits et/ou optimiser le fonctionnement des entreprises. Et cela n’est pas limité au secteur de l’IT, mais touche des domaines aussi divers que la chimie, la mécanique, la vente par internet, l’énergie, la gestion hospitalière, ... Cette révolution du « big data » est très souvent essentielle pour le développement, ou même la survie des entreprises dans un monde de plus en plus compétitif. (Pour en savoir plus, consulter l'article du Monde du 12.05.2017)

Programme détaillé

Avec cet engouement des entreprises pour le « big data », de nouvelles questions scientifiques et techniques apparaissent naturellement. Ces questions scientifiques sont notamment axées autour des points suivants :

  • Comment extraire plus d’informations pertinentes à partir des données existantes par le biais de l’apprentissage supervisé ? On peut mentionner ici les récents progrès dans le domaine des réseaux de neurones artificiels (deep learning) et dans le domaine des méthodes de type ‘forêts aléatoires’.
  • Comment aller au-delà des paradigmes d’apprentissage automatique supervisé pour étendre le champ de problèmes pratiques ciblés ? On peut mentionner ici les paradigmes de type apprentissage par renforcement qui permettent souvent d’extraire des politiques de décisions bien plus sophistiquées que celles provenant de l’apprentissage supervisé classique, comme des politiques permettant d’apprendre à conduire des voitures ou à jouer à des jeux tels que le GO ou encore des jeux vidéo de plus en plus sophistiqués.
  • Comment enrichir les données existantes dans un contexte où l’obtention de nouvelles données peut avoir un coût significatif ?
  • Comment incorporer dans des chaînes d’apprentissage « big data » des données de plus en plus déstructurées, comme par exemple des séquences vidéos, du texte, et des traces d’interactions homme-machine.

Ces questions sont souvent complexes et pour développer des produits/solutions « big data », il est dès lors important pour les entreprises de pouvoir s’adjoindre des spécialistes spécifiquement formés au domaine de la science des données. Il en va bien évidement de même pour les nombreux laboratoires de recherche dépendant de plus en plus de « data scientists » de qualité pour exploiter leurs données expérimentales.

Alors qu’à l’aube du monde des « big data », il était encore possible d’imaginer qu’un ingénieur, un informaticien, ou un mathématicien de formation générale aurait pu remplir de manière correcte un travail destiné à un vrai « data scientist », ce n’est clairement plus le cas à l’heure actuelle vu la complexité de la majorité des problèmes « big data » que l’on rencontre et les progrès très rapides sur les plans scientifique et technologique.

Cette complexité, couplée à la vitesse à laquelle évolue le secteur du big data, induit d’ailleurs assez naturellement le fait qu’un « data scientist » de qualité doit avoir un bagage solide en mathématique, en statistique et en informatique, qui lui servira de fondations pour faire évoluer par la suite une expertise en apprentissage automatique et, de manière plus générale, en intelligence artificielle. Ce bagage solide plus théorique lui permettra en effet de bien comprendre la portée des solutions « big data » existantes, de pouvoir les faire évoluer et aussi de suivre l’évolution très rapide du secteur tout au long de sa carrière.

C’est une telle formation que ce master en Science des données a la prétention de vouloir offrir et il y a fort à parier, vu l’essor du « big data » et l’expertise réunie dans cette thématique à l’Université de Liège, qu’elle aura un succès au niveau régional et international. Elle sera également d’un vrai attrait pour tout un public de scientifiques déjà diplômés et soucieux de suivre une formation pouvant donner une nouvelle dynamique à leur carrière. Le métier émergent ciblé, celui de « data scientist », consiste à détecter les possibilités d’exploitation de données et à réaliser et mettre en œuvre les systèmes informatiques concrétisant ces possibilités.

Compétences

Maîtriser les fondements scientifiques

Les fondements de la science des données relèvent des mathématiques appliquées (calcul des probabilités, statistiques, optimisation), de l’informatique (algorithmique, structures de données, automates, complexité), et de l’intelligence artificielle (apprentissage automatique, représentation de la connaissance, raisonnement automatique).

Afin de développer des compétences pérennes et une capacité de s’adapter aux techniques du futur, il est capital de maîtriser ces fondements scientifiques.

Savoir mettre en œuvre les outils informatiques

L’objet de la science des données est d’extraire des connaissances synthétiques et exploitables, en valorisant des données captées à partir du monde réel. Ces données sont souvent de qualité hétérogène, viennent généralement en grands volumes, et sous des formes parfois très diverses (textes, valeurs numériques, images, séries temporelles). Les types de connaissances à extraire sont également fort diverses (modèles prédictifs de comportements, groupes de comportement homogènes, règles de décision, variables pertinentes). Les outils technologiques à disposition pour l’extraction de connaissances à partir de données comprennent les boîtes à outils de machine learning et d’optimisation, les techniques de visualisation des données, les langages et paradigmes de programmation parallèle, les systèmes de stockage et de calcul massivement parallèles et distribués.

La pratique de la science des données requiert une très bonne connaissance des possibilités et limitations de ces outils et de savoir les mettre en œuvre pour développer une solution.

Savoir développer une solution en environnement réel

Le développement d’une solution ‘big data’ comporte un certain nombre d’étapes, comprenant la définition des connaissances visées, le choix des données à exploiter, le prototypage d’un pipeline de traitement de données, la collecte des données, le test et l’optimisation du pipeline, la présentation des résultats, la mise au point d’un cycle de maintenance du pipeline pour en assurer la viabilité. Afin que la solution développée rencontre les besoins des utilisateurs, et puisse fonctionner de façon efficace et pérenne dans l’environnement cible (laboratoire, industrie, administration, etc.), il est nécessaire d’impliquer le ‘client’ lors de la conception, afin de comprendre la nature des données et des besoins, ainsi que les contraintes du terrain.

Il faut donc à la fois maîtriser les principes de la gestion d’un projet ‘big data’ et être capable de dialoguer avec les experts du domaine cible et les responsables informatiques du client, afin de faire les bons choix techniques lors du développement d’un projet ‘big data’.

Savoir faire une analyse coûts-bénéfices

Afin d’aider les entreprises à faire les bons choix de projets d’exploitation de données, il est nécessaire de savoir analyser les coûts et les bénéfices financiers d’une telle opération, à la fois en ce qui concerne les premières phases, et dans la durée. 

L’expert en science des données doit donc disposer d’une méthodologie lui permettant de faire une analyse coûts-bénéfices sur base des informations que lui fournira l’entreprise cliente, et en dialogue avec le management stratégique de cette entreprise.

Comprendre les implications légales et sociétales

La mise en œuvre d’applications de la science des données peut conduire à des modifications de la répartition du travail dans les entreprises et/ou à exploiter des informations quant aux comportements de personnes (travailleurs, clients, public général). Pour être viables, elles doivent donc respecter la législation sur la vie privée et être acceptables par la société et le personnel des entreprises.

Le ‘data scientist’ doit être conscient des implications légales et sociétales des projets dans lesquels il va s’engager.

Partagez cette page