Fin 2020, le volume mondial de données numériques se situait aux alentours des 610 zettaoctets, l’équivalent de plusieurs milliards de téraoctets. Ces chiffres vertigineux sont représentatifs de la quasi-omniprésence de la “data” dans le monde actuel. Pour une entreprise, il est facile d’accumuler des informations. Mais au-delà des volumes, le plus important est de garantir la qualité de ces données. Sans elle, l’information détenue en interne n’a que peu de valeur et surtout, devient difficile à exploiter. Un comble quand on connaît l’efficacité des modèles de fonctionnement « data-driven ».
Comment définir la qualité des données ? Sur quels critères ? Quels sont les risques à conserver des données de faible qualité et comment y remédier ? Voici ce qu’il faut savoir.
Qu’est-ce que la qualité des données ?
Concrètement, le terme de qualité des données (ou data quality) reflète tout autant le degré de pertinence des informations que conserve une entreprise, que leur bonne organisation et la facilité à les exploiter
Pour mesurer la qualité des données, les choses se corsent, puisqu’il est nécessaire de s’appuyer sur différents critères :
Critère | Description |
Complétude | Est-ce que les informations sont complètes ? Les champs à renseigner le sont-ils ? D’autres pourraient-ils être ajoutés ? |
Fiabilité | Les différentes données sont-elles justes ? Certaines informations sont très complètes, mais totalement fausses ! Un haut pourcentage d’erreurs est source de problèmes parfois très impactants. |
Cohérence | Est-ce que certaines données sont contradictoires ? Si une même donnée contenue dans plusieurs bases présente des résultats différents, elle ne peut pas être considérée comme fiable et une investigation doit être menée. |
Pertinence | Est-ce que les informations stockées sont d’une quelconque utilité pour l’entreprise ? La collecte de données non pertinentes est une perte de temps et d’argent. |
Accessibilité | Aussi intéressantes soient-elles, les données concernées peuvent-elles être consultées facilement par les collaborateurs habilités ? Une information difficile d’accès est une information peu ou pas exploitée. |
Ancienneté | 1 – Les informations stockées sont-elles récentes ou anciennes ? Le temps érode inéluctablement la valeur d’une information, des mises à jour régulières sont donc indispensables. 2 – Depuis l’entrée en vigueur du RGPD, chaque type de données possède une durée maximale de conservation. Passé ce délai, ne pas les effacer constitue une infraction. |
Le danger des données inexactes et obsolètes
Plus le numérique se propage dans le monde, plus la quantité de données augmente. Une opportunité de choix pour qui sait s’en saisir, mais également un risque majeur en cas de négligence. La qualité des données est aujourd’hui une problématique majeure pour les sociétés : l’histoire l’a montré à de nombreuses reprises, des données obsolètes sont la source de plusieurs dangers, qui peuvent se révéler fatals pour les organisations. Récemment, ce sont près de 16 000 cas positifs à la Covid-19 qui n’ont pas été répertoriés au Royaume-Uni à cause… d’un “problème Excel” : le fichier original a fini par être trop volumineux, et de nombreuses nouvelles données ont tout bonnement été ignorées… Dès lors, quels sont les risques potentiels liés à des données de faible qualité ?
Une prise de décision hasardeuse
La plupart des décisions prises dans une société se basent sur des chiffres établis à partir d’un volume de données plus ou moins important. Si ces données ne sont pas suffisamment qualitatives, plusieurs chantiers ou investissements peuvent être lancés sur la base d’informations erronées.
Si les informations sont justes et suffisamment étayées en revanche, la réflexion autour du projet n’en sera que plus pertinente.
Des opportunités manquées
À chaque fois qu’une mauvaise décision est prise, c’est une opportunité à côté de laquelle passe l’entreprise : projet de modernisation informatique annulé, car considéré (à tort) comme peu rentable, prospect non converti faute d’informations suffisamment étayées à son sujet…
Parfois, des données de faible qualité servent même de base à l’élaboration de stratégies sur le long terme, stratégies qui se retrouvent ainsi vouées à l’échec avant même leur mise en application.
Par contre, si suffisamment de données (pertinentes) sont récupérées, il devient possible d’effectuer de l’analyse prédictive et d’anticiper les opportunités avant même qu’elles ne prennent forment de façon concrète. Dans le domaine du marketing en ligne, le profilage est une bonne illustration de ce concept : plus les informations sur un internaute sont complètes, plus il devient facile de le guider vers la conversion et donc d’anticiper ses besoins avant même qu’il ne les formule.
Une productivité en baisse
Un mauvais choix due à une « data quality » insuffisante porte également atteinte à la productivité de l’entreprise.
Dans l’industrie par exemple, une traçabilité défaillante ne permet pas de remonter à l’origine d’un problème de fabrication.
Lorsque les premiers (mauvais) résultats émergent, la ou les équipes concernées doivent passer du temps à identifier la source du problème, puis à rectifier le tir.
Sans tomber dans la facilité du fameux “le temps, c’est de l’argent”, il nous semble nécessaire de rappeler que les pertes de productivité ont toujours un coût pour une entreprise. Si la situation perdure, il est fréquent qu’un mécontentement ambiant s’installe chez les collaborateurs, qui ne savent plus à quelles données se fier pour faire leur travail.
Une réputation écornée
L’utilisation de données peu qualifiées a parfois des effets dévastateurs sur la réputation d’une entreprise.
Par exemple, un service client mal informé aura du mal à répondre correctement aux demandes d’un client. Des commerciaux travaillant avec des informations obsolètes et/ou incomplètes risquent également de faire fuir leurs prospects au lieu de les transformer en clients. A contrario, un commercial bien informé des pages web consultées par ses clients, des commandes passées, des délais de livraisons ou de l’historique des appels au service client pourra faire des offres personnalisées et pertinentes.
Une perte de revenus directe
Sans grande surprise, les quatre points vus ci-dessus ont tous un point commun : celui de faire perdre de l’argent à l’entreprise. Si la situation est rapidement reprise en main, les pertes restent généralement limitées. En revanche, si rien n’est fait, des données de mauvaise qualité peuvent avoir des répercussions bien plus graves.
4 étapes pour un chantier de qualité des données réussi
1 – Définir des objectifs et effectuer un inventaire
La première étape d’un projet visant à améliorer la qualité des données consiste à exprimer précisément les objectifs de la démarche, ainsi que d’éventuels résultats à atteindre (pourcentage d’erreurs restantes par exemple).
Vient ensuite le temps de l’inventaire, qui consiste à identifier puis rassembler l’ensemble des informations concernées par le chantier de data quality. Effectuer ce tri préliminaire permet de poser un périmètre opérationnel précis, et donc de gagner du temps : quelles sont les données concernées ? Sont-elles sur une ou plusieurs BDD ? Dans un Datalake ?
2 – Nettoyer, enrichir et valoriser les données
Une fois le plan d’action validé, la phase principale démarre. Les premières mesures consistent le plus souvent à supprimer les doublons ainsi que les informations obsolètes, qui n’ont aucun intérêt pour l’entreprise et allongent inutilement la durée d’analyse. Idéalement, il est aussi conseillé de séparer les données non structurées pour réfléchir à la meilleure façon de les exploiter.
Une fois que le “patrimoine data” ne contient plus que des informations “uniques” et intéressantes, une analyse approfondie doit permettre de déterminer les axes d’amélioration éventuels : informations manquantes, fausses valeurs… Dès lors que les “trous dans la raquette” sont répertoriés, un long travail d’enrichissement débute pour combler les vides qui peuvent l’être. Certaines données n’étant pas disponibles en interne, les entreprises doivent parfois s’appuyer sur ces partenaires externes pour mener à bien cette étape.
3 – Réimporter et vérifier les données nettoyées
Pour terminer le chantier de qualité des données, ces dernières doivent être réimportées à l’intérieur de leurs espaces de stockage respectifs.
Une fois les données “propres” en place, une seconde vérification (suivie d’un nettoyage) s’impose. En effet, il est courant que de petites erreurs fassent leur apparition pendant la réimportation : caractères spéciaux non pris en compte, problèmes de mise en forme…
4 – Adopter une vision sur le long terme
Ça y est : le projet a été mené à son terme et les données de faible qualité ont été soit supprimées, soit enrichies.
Pour éviter d’avoir à réitérer l’opération, il est primordial pour les entreprises de se projeter à long terme en instaurant une vraie culture de la qualité des données.
Cela passe en premier lieu par la sensibilisation des collaborateurs créant ou manipulant des données au quotidien.
Sur une note plus concrète, la définition d’une stratégie de gouvernance des données est aussi à envisager. Il s’agit d’un document de référence listant les différentes procédures et bonnes pratiques à suivre en matière de Data Management :
- Comment les informations entrantes doivent-elles être saisies ?
- Comment éviter les erreurs fréquentes ?
- Comment manipuler des datas en limitant les risques de perte de qualité ?
- Si besoin, quel est le mode opératoire à suivre pour nettoyer des données ?
Enfin, il est indispensable de s’équiper d’outils adéquats : aujourd’hui, différents logiciels permettent d’améliorer la qualité des données, avec une efficacité et une vitesse d’exécution qu’un humain ne peut égaler. Chez Gathering Tools, la qualité des données est notre proposition de valeur.
Nous proposons une solution complète pour remplacer les processus Excel de collecte de données, grâce à laquelle il est possible de convertir ces processus bureautiques en workflows sécurisés, le tout sans gestion du changement. Multi domaine et multi support, la solution se synchronise directement à votre SI pour améliorer la cohérence et la qualité des données.
Largement considérées comme “l’or noir du 21e siècle”, les données sont aujourd’hui au cœur du fonctionnement des entreprises et doivent être gérées avec précaution ! Les conséquences d’une mauvaise qualité des données sont souvent très insidieuses et constituent une menace de premier plan à ne pas sous-estimer.
Pour l’éviter, des solutions existent : gouvernance et gestion du patrimoine data, nettoyage, enrichissement, sensibilisation des collaborateurs et surtout mise en place d’outils dédiés à la qualité des données !