Conséquence directe de la démocratisation des nouvelles technologies, les entreprises manipulent aujourd’hui des volumes de données inédits et en constante augmentation.
Pour faire face aux enjeux de cette nouvelle réalité, le data management s’est rapidement imposé comme un véritable facteur clé de succès auprès des directions. Un passage incontournable pour exploiter ces masses d’information comme gisement d’innovation et de performance.
Qu’est-ce que le data management ?
Le data management désigne l’ensemble des processus et outils permettant à une organisation de gérer ses données, de la collecte à la suppression en passant par le stockage.
Une stratégie de gestion des données poursuit des objectifs multiples : rationaliser des processus, sécuriser l’accès à certaines informations, nettoyer des bases de données, recenser ou inventorier les données disponibles, faciliter leur exploitation par différents métiers…
En effet, chaque entreprise fait face à des enjeux différents qui ne peuvent être adressés correctement que par l’intermédiaire de mesures bien calibrées. Mais, dans tous les cas, la gestion des données au sens large vise à constituer et gérer un patrimoine informationnel référencé et exploitable.
Quels sont les différents types de données ?
Données structurées et données non structurées
Les données structurées sont organisées en formats prédéfinis, tels que des bases de données relationnelles. Les données non structurées incluent quant à elles des formats variés tels que des textes, images, et vidéos.
Données personnelles, données d’entreprise et open data
Les données personnelles sont des informations sur les individus. Les données d’entreprise concernent les informations sur les activités et processus d’une entreprise. L’open data désigne des données rendues accessibles au public.
Quels sont les enjeux du data management ?
L’explosion de la quantité de données a très rapidement mis en lumière plusieurs problématiques de fond auxquelles sont directement confrontées les entreprises dans leur activité quotidienne. On distingue cinq grandes typologies d’enjeux de data management, la finalité étant systématiquement d’aboutir à faciliter la valorisation et l’exploitation des données.
Gouvernance
Une gestion des données efficace commence obligatoirement par définir une gouvernance claire :
- Quels sont les processus utilisés pour collecter, déplacer et exploiter les données ?
- Qui sont les personnes responsables de veiller au bon déroulement des opérations concernant les données ?
- Où doivent être stockées les données et quelles sont les mesures à prendre pour garantir leur intégrité ?
- Quelles sont les règles et les normes à respecter concernant la confidentialité et la sécurisation des données ?
- Comment les données sont-elles mises à disposition des métiers ou des équipes opérationnelles susceptibles d’en tirer parti ?
La gouvernance des données permet en quelque sorte de formaliser le fonctionnement du data management au quotidien. Sans cette base, il est très difficile pour une organisation de travailler efficacement avec des données : problèmes de communication, pas de méthodologie unique, manque de rigueur sur les vérifications, etc.
Accessibilité
L’accumulation de données constitue un enjeu de taille pour les organisations, qui font face à des quantités d’informations toujours plus importantes. En effet, un jeu de données, aussi pertinent soit-il, ne sera d’aucune utilité s’il est introuvable, parce que non répertorié, mal rangé ou noyé dans la masse d’autres informations.
Rendre les données plus accessibles passe notamment par la mise en place d’une nomenclature claire, d’une arborescence de stockage efficace et surtout par l’élaboration de consignes précises pour éviter qu’une information soit classée au mauvais endroit.
Fiabilité
Les données de faible qualité, dupliquées, voire obsolètes peuvent être particulièrement problématiques, surtout lors des prises de décision stratégique où une erreur peut être lourde de conséquences.
Ainsi, il est courant que l’un des objectifs d’une stratégie de data management soit d’effectuer un nettoyage en règle, parfois qualifié de raffinage : consolidation des données, vérification des informations, suppression des doublons, etc.
Une autre partie de cet enjeu de fiabilité concerne la façon dont sont acquises les données. Collectées ou générées automatiquement, les données peuvent comporter des incohérences, qu’il faudra déceler et rectifier. Plus classiques, des erreurs de saisie ou de ressaisie viennent régulièrement fausser les données, ainsi que les statistiques et les analyses qui en découlent. Dans ce cas de figure, des formations peuvent être dispensées aux équipes, tandis que l’automatisation (partielle ou totale) de certains processus peut s’envisager.
Sécurité
Les données doivent être protégées contre les attaques extérieures, qu’il s’agisse de vol, d’espionnage ou de suppression pure et simple.
Une bonne gestion des données passe par le déploiement de mesures sécuritaires appropriées: sauvegardes sur serveurs distants, démocratisation des mots de passe “forts”, approche “zéro trust”, restrictions d’accès à certaines informations, chiffrement de certaines données stratégiques…
Scalabilité
La notion de “Big data” n’a jamais été aussi importante. Pour de nombreuses organisations, la question du stockage est au cœur des préoccupations.
Certaines se retrouvent en effet noyées sous un véritable “déluge de données” totalement éparpillées, sans avoir de processus structurés ou d’outils suffisamment puissants pour suivre la cadence. Le cloud apporte une grande flexibilité dans la gestion de volumes fluctuants, mais ne constitue en revanche pas une fin en soi. Qu’il s’agisse d’une approche préventive ou curative, le data management joue donc un rôle très important pour définir et déployer une infrastructure IT évolutive, ajustable aux réalités du moment, où les données sont au plus vite exploitables.
Analyse
Posséder des données est une chose, mais être capable de les analyser pour les mettre au service de la rentabilité de l’entreprise en est une autre.
Encore aujourd’hui, de nombreuses organisations n’exploitent pas suffisamment les informations qu’elles possèdent et passent donc à côté de nombreuses opportunités de développement.
Quels sont les outils et technologies en data management ?
Base de données
Une base de données est un ensemble organisé de données, généralement stockées et accessibles électroniquement à partir d’un ordinateur. Les bases de données sont essentielles pour stocker, gérer et récupérer des informations dans diverses applications, que ce soit pour des sites web, des systèmes de gestion des relations avec la clientèle, des applications financières, ou toute autre application nécessitant le stockage et la récupération de grandes quantités d’informations. En bref, Toute stratégie de data management repose en partie sur des bases de données (ou BDD).
SQL vs NoSQL: choisir la bonne base de données
SQL (Structured Query Language) et NoSQL (Not Only SQL) sont deux catégories de systèmes de gestion de bases de données utilisées en data management. Voici les principales différences entre ces deux types de bases de données :
- Le SQL utilise un modèle relationnel, où les données sont stockées dans des tables avec des lignes et des colonnes. Les relations entre les tables sont strictes et définies à l’avance.
- En revanche, le NoSQL peut utiliser différents modèles de données, tels que document, colonne, graphe, ou clé-valeur. Les structures sont plus flexibles et peuvent être modifiées dynamiquement.
SQL est idéal pour des données structurées tandis que NoSQL est plus flexible et peut gérer des données non structurées.
Entrepôt de données (Data Warehouse)
Un Data Warehouse (ou entrepôt de données en français) est un système de stockage centralisé qui recueille, intègre, et gère de grandes quantités de données provenant de diverses sources au sein d’une organisation. Il est principalement utilisé pour l’analyse de données et la génération de rapports, plutôt que pour les opérations de traitement de transactions au jour le jour.
Les composantes d’une stratégie de data management
Bien qu’un processus de gestion des données puisse prendre différentes formes, nous avons choisi ici un exemple concret pour illustrer les grandes composantes du data management.
Gouvernance des données
Avant même de s’occuper des données, il est primordial de définir un ensemble de règles et de processus afin d’encadrer leur exploitation au quotidien et leur cycle de vie, depuis leur collecte jusqu’à leur valorisation, voire leur archivage.
La gouvernance des données s’apparente à un socle fondamental sur lequel toute l’entreprise doit se référer pour les sujets reliés à la “Data” : processus, responsables, règles ou encore outils à utiliser. Tout doit être normé et encadré.
C’est une première étape fondamentale : les SI se complexifient, les volumes de données ne cessent d’augmenter et les enjeux liés à leur exploitation n’ont jamais été aussi importants. Le data management passe donc obligatoirement par le respect à la lettre de la gouvernance des données en vigueur dans l’entreprise.
Collecte des données
Un processus de collecte des données consiste à récupérer puis réunir des informations en provenance de sources diverses. Il s’agit d’un point fondamental du data management, puisque l‘orientation de la collecte dépend directement des objectifs fixés : consolidation, harmonisation, sécurisation, meilleure connaissance du marché…
Collecter des données nécessite rigueur et précision méthodologique, afin d’assurer l’intégrité et la qualité des informations utilisées dans les projets par la suite.
Stockage des données
Les modalités de stockage doivent être étudiées de près : centralisation ? Segmentation ? Serveurs en local ou sur le cloud ? Quels systèmes de base de données ? Entrepôt de données ?
Par ailleurs, si certaines informations sont traitées avant leur stockage, d’autres – dites non structurées – sont rangées “en vrac” dans l’attente de leur analyse dans ce que l’on appelle une Data Lake.
Sécurité des données
La protection de l’information est indissociable de la gestion des données : les menaces sont multiples (cyberattaques, corruption ou perte des données…).
Une sécurité des données insuffisante peut engendrer des situations de crise difficiles à gérer.
Qualité des données
Les données obsolètes ou dupliquées représentent un danger de premier plan pour les organisations : prises de décisions erronées, baisse de productivité, mais surtout pertes de revenus directs.
La qualité des données se mesure selon plusieurs critères tels que la fiabilité, la cohérence ou la pertinence. Des chantiers dédiés à la “data quality” sont parfois nécessaires. Mais il s’agit aussi d’un travail du quotidien pour les équipes de data engineers. Ces derniers utilisent des outils permettant la consolidation d’informations, des contrôles automatiques de cohérence ou la détection de doublons dans une base de données.
Analyse des données
L’analyse est en quelque sorte l’aboutissement d’un bon processus de data management. En effet, c’est à ce moment que le travail fourni en amont porte ses fruits : les données sont facilement trouvables, bien protégées et surtout qualitatives.
Bien que l’analyse de données puisse se faire manuellement, le recours à des outils dédiés est aujourd’hui majoritaire : BI, IA, machine et deep learning sont autant de nouvelles technologies capables de repousser toujours plus loin les limites techniques pour “faire parler les données”.
5 conseils pour améliorer la gestion des données en entreprise
1. Développer une culture d’entreprise « data driven »
Une gestion des données performante passe par des outils et des processus efficaces. Mais à la base de toute la chaîne se trouvent les collaborateurs de l’entreprise. Ainsi, la priorité pour une entreprise est de sensibiliser et de former ses effectifs aux bonnes pratiques liées au data management. De la même manière, le processus d’intégration des nouveaux arrivants doit impérativement mentionner l’importance de la donnée.
À plus long terme, l’objectif est non seulement que les employés collectent et manipulent correctement les informations qu’ils utilisent, mais aussi qu’ils se les approprient dans le cadre de leurs missions pour gagner en performance.
2. Recruter des profils dédiés au data management
Si la sensibilisation de l’ensemble des métiers offre une fondation solide à l’entreprise, le domaine du data management reste vaste et comporte de nombreuses complexités qui relèvent de champs de compétence spécifiques.
Selon la difficulté et l’ampleur des missions, la direction doit donc s’engager dans le recrutement d’équipes dédiées (data analysts, data scientists, administrateur de bases de données…) coordonnées par un Chief Data Officer ou un Data Manager.
3. Réaliser des audits réguliers
Les données d’une organisation ne sont pas figées dans le temps. Certaines sont ajoutées tandis que d’autres finissent pas être modifiées, supprimées ou archivées au gré de l’activité.
Par conséquent, mener des audits réguliers aide à maintenir l’ensemble des informations détenues par l’entreprise à des niveaux de qualité et de sécurité satisfaisants. La fréquence de ces audits repose sur différents facteurs (taille d’entreprise, quantité et nature des données, secteur d’activité…), mais quoiqu’il arrive, un audit par an constitue un minimum à respecter.
L’idée globale derrière cette procédure est de privilégier une approche de maintenance préventive et de rapidement identifier les problèmes existants.
4. Faire parler les données grâce à la visualisation
Des données de qualité n’ont que peu d’intérêt sous leur forme brute. En règle générale, la compréhension d’un jeu de données passe d’abord par une première interprétation, à l’aide de représentations sous forme de graphiques, de tableaux illustrés ou d’infographies.
Investir dans des logiciels de “Data Visualization” peut aider les équipes à travailler dans cette direction et à gagner un temps précieux dans leur quotidien.
5. Aligner la gouvernance des données avec la sécurisation des SI
Pour faire face aux nombreuses menaces qui pèsent sur les SI, la gouvernance des données doit impérativement accorder une place centrale à la sécurisation de l’information.
Les choix faits en termes de gouvernance et d’organisation des données (droits d’accès, hébergement, outils…) doivent respecter les règles édictées au niveau corporate.
Au sein de l’équipe de data management, des responsables doivent aussi être nommés afin d’assurer la bonne application des mesures décrétées. Ils doivent aussi détenir les autorisations nécessaires pour réagir immédiatement en cas d’incident ou de menace imminente – en participant aux dispositifs de crise.
L’efficacité des organisations est plus que jamais liée à leurs rapports à la “Data”. Véritable or numérique, les données renferment en effet un immense potentiel. Mais leur variété, leur complexité, leur exposition imposent rigueur, méthode et préparation. Ainsi, l’objectif des stratégies de gestion des données est de transformer les gisements de valeur a priori complexes et désorganisés que sont les données en filon exploitable.
Pingback: Gestion de données : comment étendre son périmètre en entreprise ?
Pingback: Métiers et data : une collaboration impossible ?
Pingback: Excel et la gouvernance des données : comment les concilier ?
Pingback: Les problématiques "data" du DSI
Pingback: Qualité des données : définition, enjeux et bonnes pratiques