mardi 20 octobre 2015

Les données non structurées


Sous la dénomination "non structuré", on trouve indifféremment les données machines, les données de capteurs, les données textes, en référence à des usages divers et des structures hétéroclites. En 2014 Bill Inmon (Is text really unstructured data ?) émet l'idée que le "non structuré" est réductible à du structuré et exploitable comme tel (voir Deriving Business Value from Unstructured Nonrepetitive Data).



Je dois à Xavier Henderson de l'avoir parfaitement formulé :
"Ce qu'on appelle des données non structurées sont en réalité des données structurées :
  • dont la structure évolue, comme les media sociaux: LinkedIn, FB et autres changent les formats régulièrement pour favoriser les courtiers en données avec lesquels ils ont affaire
  • dont la structure est complexe, par exemple de la littérature française (le rich text)
  • dont la structure est multiforme, par exemple le langage littéraire, le langage écrit quotidien de bonne facture, le langage vulgaire, l'oral, les dialectes de rues, locaux, les sabirs, les mélanges comme le franglais
  • dont la structure est pauvre sémantiquement mais riche en métadonnées, par exemple les logs machine, le langage sur le web - HTML qui sont spécifiques à des domaines
  • dont la structure existe mais est inconnue et tout en nécessitant un effort important pour la déterminer, conserve une zone floue d'interprétation (les hiéroglyphes avant Champollion)
  • tout ensemble où l'interprétation joue un beaucoup plus grand rôle que la structure à l'émission qui en limite grandement les possibilités d'interprétation (l'Open data)
  • tout ce qui n'est pas transactionnel
  • dont la structure, bien que simple au niveau atomique, devient hyper complexe avec le volume, par exemple le séquencement du génome
  • un mélange des précédents"

Un élément de définition possible pour contribuer à une meilleure compréhension du cycle de vie de l'information serait :une donnée non structurée est une donnée appartenant à un ensemble de données dont la sémantique reste à définir. L'une des différences majeures avec la donnée structurée transactionnelle est le nombre d'étapes de traitement nécessaires avant que cette donnée ne devienne interprétable (en termes d'intégration), une autre, c’est que les usages de cette donnée réclament des interactions avec des référentiels complexes (en terme d'interopérabilité). Le fait que ces données aient été signalées comme non structurées, pour signifier "non lisibles par la machine" indique surtout leur exclusion du système de création de valeur dans les entreprises. Longtemps considérées comme des poids morts, leur réintégration dans la chaîne de traitement nécessite la définition d'une sémantique centrée sur leurs usages possibles. A titre d'illustration voici quelques cas d'usages déjà en exploitation :

  • analyse des mails SAV émis par les clients, des commentaires sur le drive et des fichiers textes associés pour déceler les sources récurrentes de problèmes en lien avec l'approvisionnement, la qualité et les flux organisationnels associés.
  • rétro-conversion des fichiers confidentiels non signalés et gel des permissions
  • analyse des mails pour prioriser les réclamations clients et identifier les risques de conflit
  • mise à jour des données d'adresse via les données d'annuaires téléphoniques + base de changement d'adresse La Poste
  • comparaison entre données BI et données de la veille digitale pour déceler des opportunités d'affaires
  • et bien sur, bien sur, tout l'IoT...

Aucun commentaire:

Enregistrer un commentaire