L'un des enjeux de la donnée 2015 est l'exploitation et la création de
valeur autour des dark data et des données réputées non structurées. Pour mieux définir les problématiques qui leur sont associées, on peut distinguer
ces deux entrées, dont les contenus et les contours divergent selon
les auteurs et les métiers.
Pour paraphraser, les dark data sont les
données stockées dans le garage et qu'on rangera plus tard (Gartner),
mais aussi les données de l'héritage de grand-mère empilées au grenier,
le fouilli laissé par l'ancien propriétaire à la cave, ainsi que les
données du tiroir fourre-tout qu'on triera exclusivement en cas de
contrôle fiscal, donc en quelque sorte tous les déchets informationnels
générés volontairement ou non par le fonctionnement de l'organisation :
- les données conservées en attendant une possible exploitation
- les données stockées dans des lieux inaccessibles ou dont le format rend l'analyse trop coûteuse
- les données inutilisées à cause de leur mauvaise qualité
- les données stockées pour analyse qui peuvent être liées à d'autres sources de données mais auxquelles les métiers n'ont pas affecté de budget
- les données historiques dépendantes de leur lieu de stockage qui ont perdu leurs liaisons avec les autres ensembles de données au fil de migrations successives
- les données stockées sur des serveurs distants dans les architectures distribuées
- les données stockées sur les disques durs de collaborateurs
- les données d'entreprise stockées dans un cloud public (si si, ça arrive)
- les compétences des collaborateurs non capitalisées par l'entreprise
- les archives non gouvernées
- les données "non structurées"
- elles sont difficiles à identifier par l'outil informatique, leur présence est souvent signalée par un expert métier
- elles sont difficiles à localiser, ne se trouvant pas dans les bases de données ou systèmes gérés par l'IT, et très rarement inventoriées dans le catalogue de métadonnées de l'entreprise, s'il existe (Y. de Montcheuil)
- elles sont difficiles à connecter, leur insertion dans une chaîne analytique réclame un aménagement plus ou moins lourd du système d'information.
- surcoût de stockage
- défaut de confidentialité
- déficit de valeur business potentiellement associé
- Clusteriser les pôles de valeur potentiels (par analyse quand c'est possible et en comité de pilotage), qualifier et supprimer les données inutiles (et oui, même à l'ère du big data on peut gouverner ses données !)
- Développer des architectures centrées sur le search
- Développer une culture métier du partage de la donnée.
Aucun commentaire:
Enregistrer un commentaire