mercredi 13 avril 2016

Qualité de données : un défi pour l'entreprise




Une introduction aux enjeux de la qualité de données proposée la semaine dernière au CNAM lors de la demi-journée organisée par l'INTD sur le thème : La data en perspective


mardi 8 décembre 2015

Redéfinir le risque client


L'étude Big Data, Big Failure de Morar Research, réalisée pour Pure Storage, évalue  en millions d'euros les pertes liées à une mauvaise gouvernance de l'information. Problèmes de disponibilité et d'accès aux données, manque de compétences et silotage des sources de données sont désignés comme les principaux maux dont souffrent les entreprises européennes qui ont bien voulu se prêter à l'exercice. Un trouble identifié de longue date comme étant le coût de la non qualité.


Un enjeu de la digitalisation est que, pour réduire cette fracture numérique interne à l'entreprise, il faut développer une culture de la donnée qui aille a l'encontre de la manière dont les grandes entreprises se sont historiquement constituées : opérer une transition vers le "crowdata" (SLA, plate-formes d'échange de données, data lakes, etc.) contredit les formats natifs de modèles opérationnels très répandus au sein desquels l'intégration des processus métiers est généralement assez faible, en tout cas trop faible pour faire face aux nouveaux enjeux client.

La rapidité et la pertinence du service offert en réponse à la demande client est effectivement une cause de différentiation majeure : si le service proposé est inapproprié, ou trop lent, le prospect a déjà opté pour une autre proposition lorsque l'offre lui parvient. Pour maintenir la pertinence et la vélocité d'une offre de services, il faut sans cesse réexaminer les modèles opérationnels des processus qui fonctionnent à la lumière :

  • de la connaissance qu'a l'entreprise du client, en intégrant les retours business dans la chaîne d'analyse de la valeur,
  • mais surtout de la connaissance qu'a le client du service proposé grâce aux comparatifs en ligne, échanges réseaux, notations web, etc..

De plus en plus on considère la relation client comme un risque car ce qui la caractérise, c'est la tolérance zéro : dès lors comment articuler cette exigence avec la maintenance opérationnelle des données ?
Henry Peyret du Forrester indiquait très justement lors de son keynote DEP 2015 que ce qui manque dans les data lake, ce sont des annotations relatives aux différents niveaux de qualité des données qui permettront des usages futurs non connus au moment de la définition de l'architecture : ajouter des fonctionnalités de data cleansing et de data modelling au moment de l'usage de la donnée permet entre autre d'apprendre au SI à générer des cartographies sémantiques, lesquelles permettent un ré-usage augmenté de la donnée requalifiée "bonne" pour cet usage.

Une approche que nous nous proposons de tester est inspirée de l'analyse des risques industriels, qui permet de lier le "risque" client (selon la définition plus haut) au "risque" opérationnel de la non qualité :  des outils d'analyse tels que la méthodologie AMDEC, adaptés à cet effet, permettent de schématiser précisément les dimensions qualité de données et les processus opérationnels auxquels elles sont liées en modélisant les familles de données comme des éléments du système d'information, puis en analysant chaque élément selon la fonction qu'il sert (et les processus services associés), les dimensions qualité concernées par cette fonction (fonction des indicateurs), les modes de défaillance de l’élément, leurs causes et leurs effets ainsi que la détection du mode de défaillance et les actions correctives, ici requalifiées en actions de tagging sur la donnée et d'ajustement des indicateurs qualité de données.

mercredi 4 novembre 2015

Donnée, information, connaissance : de la gestion des risques à la gestion des opportunités


La définition des données non structurées proposée dans le post précédent appelle quelques précisions sur la logique qui la sous-tend. Les professionnels de l'information le savent bien : l'économie de la connaissance n'est pas linéaire. Autrement dit la simple agrégation des données ne permet pas la circulation d'une information qui donnerait accès à une forme de connaissance reproductible.  Or la représentation classique du cycle de vie de l'information, si elle a l'avantage de hiérarchiser les niveaux d’agrégation de la donnée et donc de représenter les niveaux de structures de l'organisation, ne prend pas en compte les aspects systémiques complexes qui y sont associés.



Pour rappel, un système est défini comme une totalité qui ne se réduit pas à l'ensemble de ses éléments (le tout est plus que la somme de ses parties). En phase primaire d'observation, le système considéré est une boite noire qualifiée par ses frontières avec l'extérieur, des entrées et des sorties. Il est caractérisé par les relations entre ses composants et les structures qui les englobent. Cette interrelation (ces interactions) entre les composants et les structures permet de comprendre le comportement des parties pour déterminer des phénomènes d'émergence, soit la naissance de propriétés qui apparaissent au niveau global et qui ne peuvent être déduites des propriétés élémentaires. L'émergence est expliquée par des effets de seuils et signale l'apparition d'un niveau supérieur d'organisation.

L'un des avantages de l'analyse systémique appliquée à l'information est qu'elle permet d'associer certaines caractéristiques des systèmes complexes (totalité, interrelations, structures, niveaux d'organisation, émergence,...) à des modes de calcul de la valeur en lien avec l'usage des données. Transformer l'analyse des mécanismes de capitalisation sur l'information c'est autoriser l'organisation à considérer la connaissance non plus comme un risque - à traiter ultérieurement lorsque le mode de défaillance sera actif, mais comme une opportunité - qu'on peut anticiper par analyse de la valeur (information au sens du Gartner, actif immatériel de l'entreprise).

La maîtrise des mécanismes de capitalisation sur le savoir acquis est le fruit d'une réflexion sur le fonctionnement de l'organisation et la répartition des ressources, qui prend en compte les enjeux de pouvoir relatifs au savoir et détermine des leviers d'action pour développer une culture du partage qui aille au-delà de la simple collaboration. On peut décrire l'économie de la connaissance selon le principe de métastabilité (changement d'état par effet de seuil) : comme l'eau change d'état à 0°, l'information cristallise en un certain point au sein des structures qui composent l'organisation.



Mais parce que la connaissance est d'abord un actif individuel, acquis les personnes avant de l'être par les systèmes, elle n'est jamais neutre. Acquérir une compétence réclame au mieux un effort, acquérir une connaissance nécessite une prise de risque expérimentale. Reconnaître cette réalité est pour l'entreprise une étape nécessaire dans la mise en œuvre de mécanismes de capitalisation : un réseau d'entreprise ne vaut pas l'argent qui y a été investi, si en ajoutant une brique IT au système d'information aucun mouvement nécessaire au développement d'un niveau supérieur d'organisation n'a été amorcé.

mardi 20 octobre 2015

Les données non structurées


Sous la dénomination "non structuré", on trouve indifféremment les données machines, les données de capteurs, les données textes, en référence à des usages divers et des structures hétéroclites. En 2014 Bill Inmon (Is text really unstructured data ?) émet l'idée que le "non structuré" est réductible à du structuré et exploitable comme tel (voir Deriving Business Value from Unstructured Nonrepetitive Data).



Je dois à Xavier Henderson de l'avoir parfaitement formulé :
"Ce qu'on appelle des données non structurées sont en réalité des données structurées :
  • dont la structure évolue, comme les media sociaux: LinkedIn, FB et autres changent les formats régulièrement pour favoriser les courtiers en données avec lesquels ils ont affaire
  • dont la structure est complexe, par exemple de la littérature française (le rich text)
  • dont la structure est multiforme, par exemple le langage littéraire, le langage écrit quotidien de bonne facture, le langage vulgaire, l'oral, les dialectes de rues, locaux, les sabirs, les mélanges comme le franglais
  • dont la structure est pauvre sémantiquement mais riche en métadonnées, par exemple les logs machine, le langage sur le web - HTML qui sont spécifiques à des domaines
  • dont la structure existe mais est inconnue et tout en nécessitant un effort important pour la déterminer, conserve une zone floue d'interprétation (les hiéroglyphes avant Champollion)
  • tout ensemble où l'interprétation joue un beaucoup plus grand rôle que la structure à l'émission qui en limite grandement les possibilités d'interprétation (l'Open data)
  • tout ce qui n'est pas transactionnel
  • dont la structure, bien que simple au niveau atomique, devient hyper complexe avec le volume, par exemple le séquencement du génome
  • un mélange des précédents"

Un élément de définition possible pour contribuer à une meilleure compréhension du cycle de vie de l'information serait :une donnée non structurée est une donnée appartenant à un ensemble de données dont la sémantique reste à définir. L'une des différences majeures avec la donnée structurée transactionnelle est le nombre d'étapes de traitement nécessaires avant que cette donnée ne devienne interprétable (en termes d'intégration), une autre, c’est que les usages de cette donnée réclament des interactions avec des référentiels complexes (en terme d'interopérabilité). Le fait que ces données aient été signalées comme non structurées, pour signifier "non lisibles par la machine" indique surtout leur exclusion du système de création de valeur dans les entreprises. Longtemps considérées comme des poids morts, leur réintégration dans la chaîne de traitement nécessite la définition d'une sémantique centrée sur leurs usages possibles. A titre d'illustration voici quelques cas d'usages déjà en exploitation :

  • analyse des mails SAV émis par les clients, des commentaires sur le drive et des fichiers textes associés pour déceler les sources récurrentes de problèmes en lien avec l'approvisionnement, la qualité et les flux organisationnels associés.
  • rétro-conversion des fichiers confidentiels non signalés et gel des permissions
  • analyse des mails pour prioriser les réclamations clients et identifier les risques de conflit
  • mise à jour des données d'adresse via les données d'annuaires téléphoniques + base de changement d'adresse La Poste
  • comparaison entre données BI et données de la veille digitale pour déceler des opportunités d'affaires
  • et bien sur, bien sur, tout l'IoT...

Les dark data


L'un des enjeux de la donnée 2015 est l'exploitation et la création de valeur autour des dark data et des données réputées non structurées. Pour mieux définir les problématiques qui leur sont associées, on peut distinguer ces deux entrées, dont les contenus et les contours divergent selon les auteurs et les métiers.



Pour paraphraser, les dark data sont les données stockées dans le garage et qu'on rangera plus tard (Gartner), mais aussi les données de l'héritage de grand-mère empilées au grenier, le fouilli laissé par l'ancien propriétaire à la cave, ainsi que les données du tiroir fourre-tout qu'on triera exclusivement en cas de contrôle fiscal, donc en quelque sorte tous les déchets informationnels générés volontairement ou non par le fonctionnement de l'organisation : 
  • les données conservées en attendant une possible exploitation
  • les données stockées dans des lieux inaccessibles ou dont le format rend l'analyse trop coûteuse
  • les données inutilisées à cause de leur mauvaise qualité
  • les données stockées pour analyse qui peuvent être liées à d'autres sources de données mais auxquelles les métiers n'ont pas affecté de budget
  • les données historiques dépendantes de leur lieu de stockage qui ont perdu leurs liaisons avec les autres ensembles de données au fil de migrations successives
  • les données stockées sur des serveurs distants dans les architectures distribuées
  • les données stockées sur les disques durs de collaborateurs
  • les données d'entreprise stockées dans un cloud public (si si, ça arrive)
  • les compétences des collaborateurs non capitalisées par l'entreprise
  • les archives non gouvernées
  • les données "non structurées"
Les caractéristiques de ces données :
  • elles sont difficiles à identifier par l'outil informatique, leur présence est souvent signalée par un expert métier
  • elles sont difficiles à localiser, ne se trouvant pas dans les bases de données ou systèmes gérés par l'IT, et très rarement inventoriées dans le catalogue de métadonnées de l'entreprise, s'il existe (Y. de Montcheuil)
  • elles sont difficiles à connecter, leur insertion dans une chaîne analytique réclame un aménagement plus ou moins lourd du système d'information.
Les problématiques soulevées par ces données :
  • surcoût de stockage
  • défaut de confidentialité
  • déficit de valeur business potentiellement associé
Quelques pistes de réhabilitation :
  • Clusteriser les pôles de valeur potentiels (par analyse quand c'est possible et en comité de pilotage), qualifier et supprimer les données inutiles (et oui, même à l'ère du big data on peut gouverner ses données !)
  • Développer des architectures centrées sur le search
  • Développer une culture métier du partage de la donnée.

dimanche 16 novembre 2014

Faces from Earth

Avis aux curieux et passionnés de la donnée : le programme des ateliers EXQI, présentés lors des conférences DEP 2014 les 27 et 28 novembre 2014 est en ligne ! Deux jours de réflexions sur les data, l'open data et les big data sont proposés par les groupes de travail à un public non spécialiste.

Pour patienter en actualité, voici le live stream de la Station spatiale internationale, une magnifique perspective terrestre en direct que j'aurais du poster il y a bien longtemps ! merci @philae2014 !


jeudi 24 juillet 2014

P&ID and PFD in the Document Control Flow

"Any change in the "PID" impacts your document control process" was the first mention I heard about the P&ID. From the information manager's side of the box, it could have been either a Plan Identifier or a Project Initiation Document, but obviously both were out of scope. Trying to sort this out, I eventually found a few useful resources explaining what a Piping & Instrumentation Diagram was and what it was used for.


To understand the links between the P&ID and his twin, the Process Flow Diagram (PFD) :

  • A detailed presentation from the engineer point of view, here, another about the main differences between P&ID and PFD, here

  • Multilingual (European) pages about P&IDs : this page lists the Oil & Gas instrument abbreviations, and this one provides an overview of the P&ID design and how to read it (tag numbers, loop identification, ...). 

  • See here the drawing symbols for P&ID, Isometric drawings and piping arrangement

  • To translate and understand the basic designs I usually refer to the Wikipedia pages, in English or french, or to universities websites such as the ETS canadian website.

Document Control processes, P&ID standards and software specifications

  • This presentation of a P&ID also introduces to basic line and instrument symbols

  • Useful checklists for P&IDs review and engineering packages review, here.

Compliance and control sheets : ISA and ISO standards :

ISA series
  • ANSI/ISA-5.1-2009 : Identification, Symbols and instrumentation

  • ISA-5.2-1976 (R1992) : Binary Logic Diagrams for Process Operations

  • ISA-5.3-1983 : Graphic Symbols for Distributed Control / Shared Display Instrumentation, Logic and Computer Systems

  • ANSI/ISA-5.4:1991 : Instrument Loop Diagrams

  • ISA-5.5:1995 : Graphic Symbols for Process Displays

  • Standard : ANSI/ISA-5.06.01-2007 : Functional Requirements documentation for Control Software Application

ISA data sheets :
  • ISA-20.00.03-2001 : Specification Forms for Process, Measurement and Control Instruments, Part 3, Form Requirements and Development Guidelines

  • ISA-TR20.00.01-2007 : Specification Forms for Process Measurement and Control Instruments, Part 1, General considerations

Former data sheets and the previous ISA standard (ISA-S20:1981 : Specification Forms for Process Measurement and Control Instruments, Primary Elements, and Control Valves)

Associated ISO series
  • ISO 14617-1:2005(R2010) : Graphical symbols for diagrams -- Part 1: General information and indexes

  • ISO 14617-1:2005 : Part 2-Part 17

  • And associated standards ICS 01.080.30

Management of process hazard :
  • OSHA : chemicals

  • API RP 750 : petroleum, offshore facilities

Former instrumentation standard if you deal with the archives :
  • SAMA

Document control software :

By designing links between the P&ID, the PFD and the Master Document Register inputs in the Enterprise Content Management System, you may secure your document control process and tame the changes in revision.
Research : Thomas Heer. Controlling Developement Processes. A Windows Workflow Foundation based framework for dynamic workflows and a testing review for .NET applications