Un Data Lake : Pourquoi ? Comment ?

Les Data Lake, ou lacs de données, sont de plus en plus utilisés par les entreprises pour un stockage agile des données. Mais mettre en place un data lake s’inscrit dans une stratégie d’entreprise et doit répondre à des besoins clairement identifiés en amont.

Pourquoi et comment mettre en place un data lake ?

Le rendez-vous ReadyForIT repose sur les trois piliers que sont la data, le cloud et le cyber. Cette table ronde porte sur le segment des données, posant la problématique du data lake : pourquoi et comment mettre en place cette solution ? Les intervenants de l’INA, de Comexposium et de la société Kynapse exposent leur retour d’expérience et leur opinion sur la pertinence du « lac de données ».

Pourquoi mettre en place un data lake ?

En ce qui concerne le data lake, toutes les entreprises n’ont pas abordé la question du « pourquoi » de la même manière. La plupart ont entamé leur démarche selon trois approches différentes :

  • « Techno-centric » : quand la réflexion autour de la data est portée par la DSI. On essaie alors de réaliser un data lake pour stocker, organiser, récupérer et harmoniser les datas de l’entreprise.
  • « Usage centric » : pour certains usages avancés, il est nécessaire de croiser des données, d’accéder à des données externes, et l’on a besoin de données de qualité dans un espace plus ou moins grand et modulaire. On construit alors le data lake en fonction de l’usage des données.
  • « Partenaire centric » : lorsque l’entreprise n’a pas de moyens clairement définis et lorsqu’elle décide de travailler avec un éditeur partenaire pour qu’il la décharge d’un certain nombre de problématiques. Cette troisième voie est plus anecdotique, car souvent transitoire.

Il n’est pas viable pour une entreprise de simplement considérer la création d’un data lake comme gadget IT. Il importe d’abord de comprendre l’intérêt business qu’il peut apporter. La réponse dépend des sociétés, et pour certaines d’entre elles, le data lake est inutile.

Il existe toutefois de nombreux avantages à adopter la structure d’un data lake, puisqu’il apporte notamment beaucoup plus de souplesse que des datawarehouses traditionnels. Mais la perspective de dépenser des dizaines de millions d’euros pour passer d’une infrastructure type datawarehouse à un data lake mérite d’être étudiée en fonction des besoins de l’entreprise.

Retour d’expérience de l’INA et de Comexposium

Pour savoir comment mettre en place un data lake, cette table ronde revient sur les expériences de l’INA et du groupe Comexposium.

La démarche entreprise par l’INA

Les données représentent le cœur de métier de l’INA, qui consiste à conserver et à valoriser le patrimoine audiovisuel français. L’Institut compte 18 millions d’heures numérisées parmi ses collections, mais également l’ensemble de la documentation concernant ces fichiers.

Il y a quatre ans, le système d’information de l’INA a dû être revu, avec la nécessité d’unifier deux systèmes parallèles ayant cohabité pendent deux décennies sans jamais réellement communiquer. La problématique de gérer la fusion des deux en un seul système s’est donc posée. Au même moment, l’organisation a décidé de déployer le Big Data, en commençant dans un premier temps par maîtriser les données internes au système d’information, avant d’en ajouter et de les mettre en relation.

Pour mener la transformation du système d’information, il fallait éviter de décrire les processus et les fonctionnalités avant de réaliser des chantiers de migration complexe. Compte tenu du fait que l’organisation disposait déjà d’un grand volume de données, cela serait revenu à se diriger obligatoirement vers un échec.

L’Institut a donc renversé cette vision de la transformation en s’occupant d’abord de la structuration des données, et ensuite des usages (manière d’interagir et d’exploiter la donnée). Une séparation entre la donnée et l’usage s’est donc opérée.

Le « lac de données » de Comexposium

La pertinence d’un data lake dépend de l’industrie dans laquelle il est construit. En effet, certaines industries sont tournées vers la R&D par nature, et abordent des démarches « puristes ». D’autres, à l’inverse, sont moins concernées, comme l’événementiel. Cette différence détermine le curseur entre un besoin scientifique et un besoin « business ».

Le groupe Comexposium organise plus d’une centaine d’événements par an, allant de la cybersécurité au machinisme agricole. Le dénominateur commun à chacun de ces rassemblements n’est pas très évident, mais il existe toujours deux types de clients, à savoir les visiteurs et les exposants. Ces deux typologies distinctes permettent de traiter un certain volume de données personnelles et comportementales.

Comexposium n’a pas entrepris la création de son data lake de façon traditionnelle, car son objectif ultime est d’améliorer l’expérience client. C’est donc sur ce point que la construction de l’infrastructure s’est concentrée. Le groupe est actuellement à la fin du processus d’implémentation du data lake, et commence seulement à s’intéresser aux problématiques de gouvernance, alors qu’une approche plus puriste aurait débuté par là.

En effet, d’un point de vue de métier de la donnée, il faut d’abord créer un pôle data, faire appel aux premiers data analysts pour leur confier à chacun la responsabilité d’un cycle de la donnée, d’identification, et de traduction de la data pour chaque métier. Ceci afin d’en assurer la gouvernance, de la préparer puis de l’analyser.

Pourquoi la maîtrise de la donnée est-elle importante ?

Les entreprises s’occupent de leur data depuis plusieurs dizaines d’années, et n’ont jusqu’alors pas forcément eu besoin de data lake pour ce faire. Un data lake doit présenter un intérêt et ne pas simplement être un endroit où placer toutes les données brutes sans y réfléchir, avec des tailles et des formats différents.

Une société souhaitant mettre en place cette solution doit s’intéresser à ce qui justifie cette dépense, alors qu’une base de données traditionnelle pourrait faire l’affaire s’il s’agissait simplement d’améliorer la connaissance client.

Pour Stéphane Messika, « l’INA est une boîte de données, contrairement à Comexposium, donc qu’elle construise un environnement le plus propre possible pour traiter son sujet principal, ça paraît évident. Mais toutes les boîtes ne sont pas des boîtes de données et ne peuvent pas réfléchir comme ça (sic). » En d’autres termes, à partir d’un certain seuil d’intérêt et de pertinence, il importe de mettre un frein à l’IT et d’adopter une démarche orientée design.

Par ailleurs, sans maîtrise, la puissance n’est rien. Pour Gautier Poupeau, « quoiqu’il arrive, la question essentielle, c’est : comment maîtriser sa donnée ? ». La manière de maîtriser la donnée n’a pas de réponse unique pour chaque entreprise, en raison de son histoire, de sa culture, de son système d’information, du moment où l’on souhaite la maîtriser, ainsi que de ses capacités techniques et organisationnelles.

Pour parvenir au choix du data lake, l’INA s’est ainsi interrogé sur la manière d’aborder la transformation du système d’information : par l’angle de l’usage pour par celui de la donnée ? L’Institut savait que s’il n’adoptait pas celui de l’usage, et si seule la DSI gérait la transformation des métiers et la fusion des deux systèmes, le projet avait de grandes chances d’échouer. En effet, c’est aux métiers que revient la charge de gérer leur transformation, non pas à la DSI.

Intervenants : Gautier POUPEAU, INA ; Romain CHASSINAT, COMEXPOSIUM et Stéphane MESSIKA, KYNAPSE OPEN