database management – Smals Research

“Data Virtualization” : perspectives et points d’attention

Isabelle Boydens — Wed, 21 Aug 2013 09:22:39 +0000

L’approche “Data Virtualization” émerge depuis quelques années dans la littérature et sur le marché IT (voir par exemple : R. F. Van der Lans, “Data Virtualization for BI Systems. Revolutionizing Data Integration for Datawarehouse“, Morgan Kaufmann, Elsevier, 2012).

A l’heure du “Big Data“, cette approche propose de séparer couches physiques, logiques et conceptuelles, pour faciliter l’accès aux données via la modélisation d’une vue unique virtuelle. Sur le principe, l’approche n’est pas neuve mais la technologie est nouvelle car elle intègre une large gamme de modèles logiques actuels de données : RDBMS, NoSQL databases (modèles réseau, hiérarchique, …), information non structurée, Web & Linked Open Data, etc.

Le “Data Virtualization” vise ainsi à la mise en place d’une plateforme d’accès et d’échange homogène à un grand ensemble de bases de données hétérogènes liées entre elles pour le “business”. Des outils apparaissent sur le marché à cette fin (parmi les leaders en 2013, citons : Denodo, Informatica et Composite Software ainsi qu’un outil Open Source “Red Hat“) visant à gérer notamment :

la performance (gestion de mémoires cache);
la sécurité;
la conception graphique de vues avec des fonctionnalités de “Sandbox” (prototypes rapidement conçus), d’audit (“lineage”), d’opérateurs spécifiques (“mapping”, “matching”, “nesting”, …);
la génération d’une vue homogène moyennant éventuellement des pertes d’information (par exemple, les structures des NoSQL databases peuvent être converties en structures relationnelles pour obtenir une vue homogène, si la vue virtuelle est de type relationnelle);
des transactions bidirectionnelles “théoriquement”, toutefois, ces outils sont surtout utilisés à l’heure actuelle en “read only” et peu en “write back”;
certains aspects de la qualité des données (via le recours à des techniques de “data profiling“, par exemple);
des domaines d’application spécifiques;
le lien avec des bases de données externes internationales fréquemment consultées, comme “Dun and Bradstreet“, dans certains cas.

Sur le plan conceptuel, la mise en place de la vue virtuelle unique, reposant sur des requêtes (queries), n’est pas triviale et demande une expertise humaine pointue :

des techniques d’intégration de schémas (“top down“, “bottom up“, “inside out“, …) et éventuellement, d’intégration de valeurs sur la base de règles de priorité doivent être mobilisées (voir par exemple : Ben Hassine-Guetari S. et al., « La gestion de données multi-sources : de la théorie à la mise en œuvre dans le cadre d’un référentiel client unique ». In Berti Equille L. éd., La qualité et la gouvernance des données au service de la performance des entreprises. Paris : Hermès, 2012, p. 179 à 214).
la gouvernance des données (sur le plan sémantique, de la gestion des versions, …) doit être gérée rigoureusement en amont de façon à disposer de données documentées et homogènes (ces questions sémantiques n’étant pas gérées “automatiquement” par un logiciel et demandant de la main d’oeuvre humaine qualifiée et l’implication des utilisateurs). Cette gouvernance est capitale dès le début du projet mais aussi tout au long de la maintenance et du cycle de vie des applications. L’intérêt d’un outil de “data virtualization”, sur ce plan, réside éventuellement dans le fait qu’il attire potentiellement l’attention sur la nécessité d’une gouvernance et d’une organisation.
Une telle plateforme peut également faire appel à des sources authentiques validées dont la conception est stratégique (à propos de la conception de telles sources, voir l’ouvrage de référence : J. Bizingre, J. Paumier et P. Rivière, “Les référentiels du système d’information. Données de référence et architecture d’entreprise”, Paris, Dunod, 2013).

Enfin, les points d’attention suivants doivent être mentionnés sur le plan fonctionnel :

Par définition, les outils de “Data Virtualization” sont surtout intéressants si l’on dispose de DBMS hétérogènes différents sur les plans logiques et physiques. Si l’on dispose d’un seul type de DBMS, l’approche reste intéressante sur le principe mais l’acquisition d’un outil peut sembler superflue.
La technologie est récente, en 2013, il existe peu de case studies à grande échelle de par le monde;
Les outils sont coûteux et parfois propriétaires (voir plus haut).
Même s’ils s’appliquent aussi aux bases de données “real time” transactionnelles, pour des raisons de performance évidentes, les domaines de prédilection actuels des outils de “Data Virtualization” sont le BI, les ETL ou les DWH (où l’on trouve fréquemment des DBMS logiques et physiques hétérogènes).

Les techniques de “Data Virtualization” présentent dans tous les cas un grand intérêt, dans le contexte du “data analytics” et du “big data” et mériteront un suivi attentif, en prenant en considération des défis conceptuels et fonctionnels qu’elles soulèvent.

Archivage des bases de données

Grégory Ogonowski — Thu, 28 Mar 2013 07:25:58 +0000

La croissance continue des volumes de données stockés dans les bases de données n’est pas sans poser des problèmes : temps de réponse, difficultés à maintenir les performances, allongement du temps nécessaire pour réaliser les opérations de migration, de sauvegarde, de plan de continuité d’entreprise… Cela alors qu’une grande majorité des données présentes dans les bases de données en production ne sont que peu, voire plus du tout utilisées.

De plus, il n’est pas rare de devoir maintenir des applications obsolètes en production uniquement pour pouvoir accéder aux données, ce qui engendre des coûts importants en termes de maintenance (licence, compétences requises…).

Enfin, de nombreuses données doivent être conservées sur des périodes plus ou moins longues pour des raisons légales et réglementaires, ou pour se protéger contre tout risque juridique, ce qui implique de pouvoir démontrer leur intégrité et leur authenticité. À cet égard, conserver les données dans une base de données en production n’apporte aucune garantie.

Face à cette situation, l’archivage des données contenues dans les bases de données apporte une réelle valeur ajoutée et des éléments de réponse à ces différents défis. Il s’agit d’exporter périodiquement ou ponctuellement les données qui ne sont plus régulièrement utilisées en vue de les mettre en sécurité dans un système d’archivage électronique. La base de données de production est ensuite purgée des éléments archivés. Cette démarche requiert une compréhension précise des enjeux et des problèmes inhérents à ce type de projet, mais également une méthodologie rigoureuse. Ces éléments seront exposés lors de la présentation, qui sera illustrée à l’aide d’exemples concrets. Nous présenterons les fonctionnalités, les atouts et les faiblesses de quatre solutions existantes sur le marché afin d’en donner au public une image plus concrète.

Database-Archiving Download

Data tracking – le “Return On Investment” de l’analyse des flux d’information

Isabelle Boydens — Tue, 25 Dec 2012 12:11:38 +0000

L’egovernment repose sur la gestion de vastes bases de données dont les enjeux sont stratégiques sur les plans sociaux, financiers et juridiques. Ces bases de données sont alimentées par des flux d’information (entre citoyens, entreprises, employeurs et administrations) véhiculant un grand nombre d’anomalies formelles (valeurs déviantes par rapport aux valeurs attendues) dont la gestion est coûteuse.

Le « data tracking » est une technique permettant de détecter les causes structurelles de ces anomalies et d’y remédier durablement à la source. Appliqué aux États-Unis dans les laboratoires d’AT&T, le « data tracking » a également été mis en œuvre dans le secteur de la sécurité sociale belge avec un ROI important. Ce rapport en développe les modalités d’application, les gains et les possibilités de généralisation à tout type de base de données.

E-government baseert zich op het beheer van uitgebreide databases die een strategische rol spelen op sociaal, financieel en juridisch vlak. Deze databases worden verrijkt door informatiestromen (tussen burgers, bedrijven, werkgevers en besturen) die een groot aantal formele anomalieën met zich meebrengen (afwijkende waarden ten opzichte van de verwachte waarden) waarvan het beheer duur is.

“Data tracking” is een techniek waarmee de structurele oorzaken van deze anomalieën kunnen opgespoord worden en die een duurzame oplossing aan de bron aanbiedt. In de VS wordt “data tracking” toegepast in de laboratoria van AT&T en het werd eveneens ingevoerd in de sector van de Belgische sociale zekerheid met een belangrijke ROI. Dit document bespreekt de toepassingsmodaliteiten, de voordelen en de mogelijkheden om de techniek te veralgemenen naar elk type database.

Data-tracking-le-Return-On-Investment-de-lanalyse-des-flux-dinformation Download

NoSQL – Hype ou Innovation

Grégory Ogonowski — Tue, 25 Oct 2011 10:24:55 +0000

Al verschillende decennia domineert het relationele model de wereld van de databases. En hoewel informatici de relationele databases zeer goed beheersen, heeft de opkomst van het Web 2.0 aangetoond dat die databases toch ook hun grenzen hebben. Soms bleken zij zelfs niet bruikbaar voor bepaalde taken waardoor grote spelers op het web zoals Amazon, Facebook of Google zich gedwongen zagen alternatieven te ontwikkelen om aan deze nieuwe behoeften te kunnen voldoen. Zo kwam de beweging NoSQL (Not only SQL) op gang.

Achter de term NoSQL schuilen database engines met andere doelstellingen dan de relationele database-managementsystemen (RDBMS). Bij NoSQL-oplossingen zullen schaalbaarheid en performantie heel vaak voorrang krijgen op de consistentie van de gegevens. Een andere grote verandering is het formaat van de gegevens zelf: in de relationele databases worden de gegevens voorgesteld in de vorm van grote tabellen maar hier is dat niet langer het geval. Het is soms mogelijk gegevens op te slaan in de vorm van complexe documenten zonder vooraf vastgelegde structuur. Deze ongebondenheid qua gegevensformaat kan, als zij correct gebruikt wordt, een grote soepelheid bieden aan de ontwikkelaars en kan de toepassingen die deze databases zullen manipuleren zeer flexibel maken.

Op papier lijken bepaalde concepten van de NoSQL-databases zeer aanlokkelijk maar hoe zit het nu in de praktijk? Bereiken deze databases hun vooropgestelde doelstellingen? Wanneer kan het gebruik van een NoSQL-database overwogen worden en wanneer is dit geen optie?

Gezien de grote verschillen tussen de RDBMS’en en de NoSQL-databases zal de sessie niet alleen de principes van deze databases toelichten: ook talrijke demonstraties en concrete gebruiksvoorbeelden zijn voorzien. Deze sessie is het tweede deel in een reeks van drie sessies rond de thema’s hoge beschikbaarheid, schaalbaarheid en performantie. De reeks wordt afgesloten in december met de sessie over XTP-platformen (eXtreme Transaction Processing).

Depuis plusieurs décennies, le modèle relationnel règne en maître dans le monde des bases de données. Cependant, avec la montée en puissance du Web 2.0, les bases de données relationnelles, pourtant très bien maîtrisées par les informaticiens, ont commencé à montrer leurs limites et se sont parfois même révélées inefficaces pour certaines tâches, poussant des géants du Web tels que Amazon, Facebook ou Google à développer des alternatives permettant de répondre à ces nouvelles contraintes. Le mouvement NoSQL (Not only SQL) a alors été lancé.

Derrière le terme NoSQL se cachent des moteurs de bases de données aux objectifs différents de ceux visés par les systèmes de gestion de bases de données relationnelles (SGBDR). Avec les solutions NoSQL, la scalabilité et les performances seront bien souvent privilégiées par rapport à la consistance des données. Un autre grand changement est le format des données lui-même : alors que dans les bases de données relationnelles, les données se présentent sous forme de grands tableaux, ici, ce n’est plus le cas. Il est parfois possible de stocker des données sous forme de documents complexes dont la structure n’est pas prédéfinie. Cette malléabilité du format des données peut, si elle est correctement exploitée, offrir une grande souplesse aux développeurs et apporter une grande flexibilité aux applications qui vont manipuler ces bases de données.

Sur le papier, certains concepts des bases de données NoSQL semblent très alléchants, mais qu’en est-il en pratique ? Les objectifs fixés par ces bases de données sont-ils atteints ? Quand doit-on et ne doit-on pas envisager l’utilisation d’une base de données NoSQL ? Etant donné les grandes différences entre les SGBDR et les bases de données NoSQL, la session ne se contentera pas d’expliquer les principes de ces bases de données : de nombreuses démonstrations sont prévues ainsi que des exemples concrets d’utilisation. Cette session est le second volet d’une série de trois sessions sur les thématiques de la haute disponibilité, scalabilité et performances. La série sera clôturée en décembre avec la session sur les plateformes XTP (eXtreme Transaction Processing).

Presentation

NoSQL-Hype-ou-Innovation Download

Préservation à long terme de l’information numérique

Arnaud Hulstaert — Sun, 07 Feb 2010 14:11:48 +0000

L’utilisation croissante des technologies de l’information et de la communication a fait de la préservation à long terme de l’information numérique un enjeu crucial pour les entreprises et les institutions (quantité croissante d’informations numériques, réglementations imposant leur conservation sur des durées relativement longues, enjeux financiers importants, nombreux types d’informations – dans certains cas très complexes – à préserver).

N’étant par nature pas auto-explicative, l’information numérique naît de l’interaction entre une séquence de bits et des éléments hardware et software, la rendant dès lors soumise à l’évolution hétérogène de ces différentes composantes. Le problème est que l’ère du numérique dans laquelle nous sommes entrés est marquée par une évolution impressionnante des technologies (les unes remplaçant les autres).

Incluse dans l’archivage, la préservation consiste à maintenir les objets archivés en état, c’est-à-dire accessibles et compréhensibles par ses utilisateurs. Du fait de la fragilité inhérente de l’information numérique, sa préservation nécessite d’appliquer de manière continue tout au long du cyle de vie de l’information des stratégies techniques et conceptuelles qui ne sont efficaces que si elles sont encadrées par une organisation financée durablement.

Au niveau de l’organisation, un préalable indispensable est un engagement fort de la direction eu égard aux budgets et compétences qui devront être rassemblés. Tout projet de ce type doit commencer par une étude du modèle conceptuel Open Archival Information System (OAIS) devenu progressivement une norme incontournable dans le domaine et normalisée en 2003 par l’ISO. Permettant de saisir la problématique de manière globale (du point de vue fonctionnel et au niveau des informations à rassembler), il constitue un excellent guide pour la mise en œuvre de projets d’archivage à long terme. Pour être préservée, l’information numérique doit être maintenue dans un système qualifié de fiable sur les plans de l’organisation, de la gestion et des stratégies techniques et conceptuelles mises en œuvre. Divers modèles d’audit (dont le plus élaboré est DRAMBORA) existent et offrent une aide efficace pour évaluer la capacité d’un système à préserver l’information.

Le modèle OAIS n’offrant qu’un modèle conceptuel, il reviendra à chaque organisation de traduire cette organisation en différents services, chacun assumant une partie des tâches et des responsabilités.

Une fois ce cadre organisationnel élaboré, l’organisme souhaitant préserver ces informations doit recourir à diverses stratégies techniques et conceptuelles, appliquées de manière continue. Étant donné qu’il n’existe aucune solution globale et unique, nous insistons sur l’importance de combiner ces stratégies.

Les stratégies techniques et conceptuelles opérationnelles actuellement et complémentaires sont :

la gestion des supports de stockage, incluant le choix des supports, leur contrôle régulier et leur remplacement ;
la gestion des formats, comprenant le choix de formats qualifiés de pérennes, leur validation et le recours à des format viewers ;
la migration régulière des données vers des nouveaux formats ou des architectures matérielles et logicielles plus récentes, en veillant à la compatibilité ascendante des logiciels et en prenant soin de documenter rigoureusement le processus de migration ;
le recours aux métadonnées, base indispensable de toute autre stratégie. À cet égard, les standards développés ces dernières années (dont METS et PREMIS) offrent une aide indéniable.

Chacune de ces stratégies permet de préserver une ou plusieurs couches (physique, binaire, logique et sémantique) de l’information numérique.

Deux autres stratégies sont parfois présentées. L’encapsulation est intéressante mais encore peu mise en oeuvre aujourd’hui. L’émulation est utilisée aujourd’hui au niveau des supports de stockage. Au niveau logiciel, elle n’est clairement pas opérationnelle à l’heure actuelle.

Le coût de la préservation demeure un problème complexe à gérer, d’autant plus que ce coût n’est que difficilement chiffrable. Dès lors, en vue de le diminuer, diverses stratégies de mutualisation peuvent être mises en œuvre.

digital_preservation Download

Préserver l’information numérique : Codage et conversion de l’information

Arnaud Hulstaert — Sat, 07 Jun 2008 13:23:45 +0000

L’informatisation de notre société et la dématérialisation de l’information qui accompagne son développement actuel ont entraîné la gestion de quantités de données sous forme numérique. Ces informations, issues d’applications diverses, sont souvent hétérogènes dans leur format, de sorte que leurs échanges posent des problèmes importants pouvant profondément modifier la qualité des données. Le problème est connu depuis de nombreuses années. Cependant, l’interconnexion des réseaux et des applications gérant des données similaires et devant de plus en plus interagir le rendent davantage stratégique aujourd’hui que par le passé. Cette situation rend ainsi problématique la multiplicité des solutions apportées et des formats utilisés et constitue un frein à un traitement optimal des données tout au long de la chaîne de traitement informationnel (stockage, indexation, recherche), tel que l’identification d’un travailleur présent dans une déclaration par comparaison avec les données situées dans d’autres bases de données de la sécurité sociale.

Le problème est aussi bien technique que conceptuel. Il faut bien entendu tenir compte des formats de codage disponibles et de leur support, tant au niveau du software que du hardware. Par ailleurs, beaucoup de formats disposent de nombreuses variantes nationales, généralement incompatibles sans conversion de l’information. Certains formats étant moins riches que d’autres, il est parfois nécessaire d’appauvrir l’information, par exemple en supprimant les caractères accentués et spéciaux. Cependant, les approches généralement locales du problème et de sa résolution ont entraîné, au sein des applications, l’apparition de nombreux formats et processus de conversions différents sans que les contraintes techniques ne le justifient à chaque fois.

A certains de ces problèmes, Unicode peut apporter des réponses mais il ne constitue en rien la solution parfaite et unique. Cependant, la richesse relative de l’information qu’il permet, sa compatibilité avec d’autres normes plus anciennes et largement répandues, ainsi que sa souplesse dans certaines manipulations de chaîne en font une évolution inévitable qu’il est nécessaire d’appréhender.

Afin de résoudre ces difficultés, il convient d’adopter une approche plus globale du traitement de l’information en définissant une politique de codage (afin d’en éviter la multiplicité et par là les conversions nécessaires) et une politique de conversion (pour gérer la qualité de l’information de manière cohérente) appliquées à l’ensemble des données. Par ailleurs, dans le cadre de la préservation à long terme de l’information numérique, l’adoption de formats standards et ouverts, ainsi qu’une rationalisation de leur nombre est généralement considéré comme un pré requis. Outre cela, préserver la qualité de l’information, y compris en choisissant des formats permettant une compatibilité ascendante comme Unicode, permet d’en faciliter la conservation et la compréhension pour les futurs utilisateurs, tout en appréhendant mieux les changements technologiques.

delivrable_preserver_info_num_codage_conversion Download

Data Quality: Tools – Evaluer et améliorer la qualité des données

Smals Research — Fri, 07 Sep 2007 13:26:57 +0000

La qualité des données représente pour beaucoup d’organisations un défi de taille. Elle est considérée par les bureaux d’analystes Gartner et Butler Group comme un point critique pour le succès des initiatives SOA, la mise en place de systèmes de Business Intelligence, de Customer-Relationship Management, entre autres. Mais surtout, comme l’a souligné le premier deliverable consacré à cette thématique (« Data Quality : Best Practices »), la qualité de l’information est stratégique car elle désigne l’adéquation relative des données aux objectifs qui leur ont été assignés. De fait, au sein des administrations, des données inadéquates ou non pertinentes peuvent entraîner des effets extrêmement négatifs sur les plans financiers ou « business ». Ces effets peuvent toucher le traitement des dossiers des citoyens, les décisions stratégiques du management, les initiatives de données entre administrations, ou encore la construction de sources authentiques, pour ne citer que quelques exemples. Comme l’a montré l’étude « Data quality : Best practices », il est primordial d’agir, de manière continue, à la source des concepts et flux d’information alimentant un système d’information. En effet, si l’on se contente de corriger les données inadéquates, sans traiter les causes, on se trouve face à un travail aussi inutile qu’infini. Un système d’information est un fleuve et un travail exclusif de correction des valeurs inadéquates n’endigue pas l’arrivée régulière de nouvelles données non pertinentes. Toutefois, en complément de cette approche, il peut être crucial de disposer d’outils intervenant au sein des bases de données pour deux raisons. D’une part, il faut pouvoir traiter le passé : données inadéquates (doubles, incohérences) déjà incluses dans les bases de données. D’autre part, le traitement à la source ne garantit pas dans l’absolu l’absence de saisie de valeurs inadéquates (émergence de doubles suite à des erreurs orthographiques, par exemple).

Dans ce contexte, un marché d’outils dédiés à l’analyse et à l’amélioration de la qualité des bases de données s’est fortement développé depuis plusieurs années. Il a d’ailleurs été reconnu comme un marché à part entière par Gartner, qui lui a consacré un premier « Magic Quadrant » en avril 2006. Ce rapport détaille l’offre actuelle en la matière : « profiling » (audit formel d’une base de données), « standardisation » des données et « matching » (détection de doublons et d’incohérences au sein d’une ou plusieurs sources). Sur la base d’un case study relatif à une base de données administrative « grandeur nature », il montre les avantages des « data quality tools » par rapport à un développement « in house » : qu’il s’agisse du temps de développement, de la richesse algorithmique (quantité de règles réutilisables) ou encore, du recours à des bases de connaissances multilingues régulièrement mises à jour (concernant les adresses, par exemple). En conclusion, ces outils, qui offrent également un traitement plus souple et rapide en cas de « change request », paraissent indispensables pour toute organisation au sein de laquelle la qualité de l’information est considérée comme un facteur crucial.

data_quality_tools1910 Download