Article Ready For It - 5 recommendations pour commencer son data lake

Data Lake : 5 recommandations pour commencer

Le Data Lake est souvent associé à un moyen plus économique de stocker des données internes et externes, structurées et non structurées. 

C’est en réalité beaucoup plus que cela, et pour en tirer un net avantage la réussite d’un datalake va demander de la stratégie et du travail. 

Voici 5 recommandations pour faire de votre Data Lake un succès. 

Les entreprises doivent faire face à l’explosion des volumes, des formats et de la géographie des données. La création d’un Data Lake - qui repose sur un principe simple, réunir les données utiles en un référentiel unique - est une réponse à cette problématique.

Mais il faut se poser quelques questions, par exemple quelle est sa finalité, faut-il le localiser dans une architecture nouvelle ou dans le cloud, ou encore quelles sont les exigences réglementaires et/ou commerciales. Et surtout éviter de se limiter à la seule vision de la réduction du coût de stockage.

Voici 5 recommandations sur les meilleures pratiques du Data Lake.
 

1 - Différencier Data Lake et base de données

Parfois le Data Lake est pensé comme un moyen de créer une base de donnée au coût réduit. Et il faut alors plusieurs mois pour se rendre compte que le résultat obtenu déçoit, car un Data Lake ne se comporte pas comme une base de données, il ne doit donc pas être pensé comme tel...

Le Data Lake n’est pas une solution magique, il nécessite des ressources et des compétences que l’entreprise doit fournir, et il nécessite un alignement des moyens déployés sur les attentes de l’entreprise.

La réflexion sur le besoin d’un Data Lake est indispensable avant de démarrer un projet.
 

2 - Aligner les bonnes ressources

Un projet de Data Lake est généralement porteur de nombreuses ambitions, encore faut-il disposer des ressources nécessaires pour son déploiement. Et tout ce qui se construit a un coût ! Les entreprises ne comprennent pas toujours ce nombre de ressources, de connaissances, d’expériences dont elles vont avoir besoin.

Et très vite se pose la question : peut-on construire son Data Lake en interne où doit-on l’acheter ? Car l’équipe en charge de construire le Data Lake va rapidement constater que la saisie et l’importation des données - des actes finalement courants pour les gestionnaires d’infrastructure - ne sont que le début du travail, mais pas sa finalité.

Ces ressources ne sont pas seulement financières, elles ont un coût en temps et en efficacité. Et elles portent en particulier, nous l’avons évoqué, sur le manque de compétences dans l’organisation.

Qu’il s’agisse de former les personnels en place ou de recruter des personnes disposant des compétences recherchées, la question des connaissances est essentielle car elle a un réel impact sur la durée comme sur le succès d’un Data Lake.
 

3 - Commencer par un problème commercial réel

Le Data Lake fait généralement rêver les équipes de l’entreprise, avec un risque de dérive qui porte sur la transformation des bases de données en pseudo projet scientifique, avec lequel on joue, on expérimente, on crée des référentiels qui au final n’ont qu’une utilité réduite. Pour éviter cela, et apporter une dynamique de succès que l’on cherchera à étendre, commencez par déployer le Data Lake en cherchant à résoudre un problème commercial réel. Ce type de projet est plus susceptible d’avoir des résultats positifs, rapidement, et d’apporter des informations qui satisferont la direction métier jusqu’à la direction générale.

L’effet psychologique recherché est également important. Les équipes commerciales concernées s’impliquent plus rapidement et plus facilement sur les projets qui les concernent. Elles sont également plus volontaires pour s’impliquer sur le travail sur les données.

Et surtout elles restent plus concentrées. C’est ce qui évitera en particulier les risques de dérive évoqués, et de rêver que le Data Lake résoudra tous les cas d’utilisation qui lui seront soumis... Voilà pourquoi il est préférable de commencer par un problème commercial, de rester concentré et de le résoudre. Une démonstration réussie qui sera un facteur de succès du Data Lake.
 

4 - Accorder la priorité à la sécurité

Derrière un Data Lake, il n’y a pas que le stockage des données, il y a également la gestion des données, et l’organisation qui le déploie comme celle qui l’exploite, même si c’est la même, doivent s’assurer de la sécurité des données qui leurs sont confiées. Or, un projet Data Lake est par essence un projet informatique, soumis aux mêmes risques, qu’il s’agisse d’intrusion, de vol, de destruction des données, jusqu’à l’omniprésent risque de l’erreur humaine.

Si des technologies apparaissent en permanence pour contribuer à la sécurité et à la gouvernance des données, qui supportent désormais le principal de l’apport de valeur à l’entreprise, de l’autre côté de la barrière le danger de la cyber-criminalité évolue au même rythme, et se montre même plus réactif que l’entreprise et ses partenaires. Le risque est réel et porte sur le coeur de l’entreprise… Une attention soutenue doit être portée sur la sécurité du Data Lake, de ses données et des flux, et a minima le mettre à l’abri des mauvaises personnes.

Au strict minimum, apportez une attention particulière sur l’authentification de l'utilisateur, son autorisation, et sur le chiffrement des données au repos comme en mouvement.
 

5 - Considérer le cycle de vie de la gestion des données

Le Data Lake n’est ni un lieu magique, ni le lieu de travail réservé à la data-science. Il nécessite de considérer le cycle de vie complet de la gestion des données, incluant la collecte et le stockage des données, leur chargement dans le stockage intermédiaire, l’exécution des contrôles de qualité, le nettoyage et l’enrichissement des données, la gestion, et la génération des rapports. Le Data Lake peut être considéré comme un projet à part.

Cela n’empêche pas de passer par le cycle de vie de la gestion des données. Et là encore, pour créer un pipeline de gestion de l'information, de commencer par quelque chose de connu et d’une taille raisonnable, avant de s’attaquer à des sources non structurées, des données de capteurs, des données en flux continu, etc.

Et ainsi de construire des fondations solides, et en cas d’échec de ne pas avoir à reconsidérer ces fondations.
C’est sans doute là qu’est le principal conseil que l’on puisse donner aux porteurs d’un projet de Data Lake, de se concentrer sur la qualité de la prise de décision, objectif final de tout projet portant sur la donnée.