A l’ère du numérique, il est de plus en plus simple de collecter des données, de les stocker à moindre coût, mais aussi… de les oublier. Les « dark data » constituent les données collectées par les entreprises non exploitées et même oubliées. Aujourd’hui, elles représentent selon la société américaine Veritas Technologies un peu plus de 50% en moyenne des données collectées par les entreprises.

L’accumulation de dark data présente plusieurs risques : tout d’abord, de manière générale, il s’agit d’une grande quantité de données inutilisées et dormantes, dont le stockage reste coûteux et n’engendre aucun bénéfice. Leur stockage entraîne ainsi un impact négatif, tant du point de vue environnemental que du coût qu’il représente pour l’entreprise. En outre, bien qu’elles soient inexploitées, ces données restent soumises au RGPD.

L’accumulation de dark data peut traduire une mauvaise connaissance des natures et flux de données. Pourtant, parmi les principes clé du RGPD figurent la transparence et donc la maîtrise des données collectées, la limitation des durées de conservation des données, avec une règle primordiale : aucune donnée ne doit être conservée de façon illimitée.

Enfin, outre le risque de se voir reprocher une conservation injustifiée des données collectées, l’entreprise peut passer à côté d’une violation de données (ou un incident de sécurité) significative. En effet, qui constatera un incident sur des données dont il n’a pas même connaissance ? Ces violations doivent pourtant être notifiées à la CNIL dans les 72h après leur découverte.

Ainsi, l’identification de ces données est dans l’intérêt de l’entreprise. Elle passe par la cartographie des données collectées et l’établissement du registre des traitement de données personnelles, qui permet d’identifier les données « entrant », ou collectées par l’entreprise mais aussi par la réalisation de schémas des flux de données (permettant de suivre la donnée de sa collecte à sa destruction).

Identifier ses dark data peut ainsi permettre de réduire les risques liés à leur conservation illimitée. Mais ces données « redécouvertes » peuvent être exploitées autrement : en les contrôlant et en les structurant, elles peuvent être traitées par les entreprises et créer de la valeur.