Le retour des bases de données distribuées grâce à XML

Une nouvelle vague de produits arrive pour nous proposer une approche de l’informatique décisionnelle complètement décentralisée et sans entrepôt de données volumineux. S’agit t-il d’une alternative au datawarehouse lourd et coûteux ou d’une toute nouvelle approche qu’on pourrait appeler « décisionnel temps réel » ?

Un vieux rêve hante l’industrie informatique depuis des décennies : comment proposer un accès aux données quels que soient les formats et emplacements et faire en sorte que la vue de cet accès soit unifiée ?
Les bases de données distribuées ont été les premières réponses à cette aspiration mais elles ont vite été abandonnées à peine expérimentées. C’était il y a vingt ans déjà. Aujourd’hui, une nouvelle vague de middlewares s’appuyant sur XML proposent de raviver la pratique des requêtes distribuées.

La faiblesse de performance des requêtes distribuées était un problème récurrent par le passé et c’est cette barrière qui, entre autres, a condamné les bases de données distribuées. Des progrès récents dans tous les domaines (SGBDR, réseau, etc.) ont effacé ou au moins amoindri ce handicap à tel point qu’on parle de nouveau de l’approche distribuée qui est cette fois appelée « bases de données fédérées » ou même « base de données virtuelle » (et même aussi EII pour Enterprise Informations Integration que l’on pourrait alors voir comme un « produit dérivé » de l’EAI…).
Mais le renouveau d’intérêt pour cette ancienne pratique vient aussi d’une certaine contestation du datawarehouse tel qu’il est pratiqué aujourd’hui…

L’approche datawarehouse contestée

L’approche datawarehouse est contestée parce que les utilisateurs la trouvent trop chère, trop rigide et pas assez réactive.
Trop chère car le Gartner Group estime à un million d’euros par an en moyenne l’entretien d’un entrepôt de données. Pas assez souple car les contraintes de fonctionnement d’un datawarehouse (reposant sur un cycle extraction-transformation-chargement) font qu’il est difficile de refléter l’évolution constante du système d’informations et donc de prendre en compte les nouvelles sources de données.
Enfin, le cycle extraction-transformation-chargement impose un rafraîchissement périodique des données (en clair, du batch !) qui est aux antipodes de la tendance « entreprise temps réel » qui est à la mode actuellement aux USA.
En bref, on reproche au datawarehouse d’être trop orienté analyse (sur des données périmées !) et pas assez opérationnel. Les jours du grand entrepôt de données sont-ils comptés ?

Vers le décisionnel « temps réel » ?

Pas nécessairement car, en fait, la nouvelle approche privilégie un contexte applicatif spécifique. Il ne s’agit pas de refaire du décisionnel d’analyse d’une autre façon (décentralisée plutôt que centralisée) mais plutôt de l’accès « temps réel » à des sources de données diversifiées tant en emplacement qu’en format. Dans le cadre d’un call center de support technique, la possibilité d’accéder à des données fraîches agrégées à partir de multiples sources devient un avantage déterminant…

Le champ d’actions et le potentiel de ce « décisionnel temps réel » est illustré par l’exemple suivant : un utilisateur veut vérifier la valeur d’un actif ou d’un portefeuille d’actifs. La base de données virtuelle va aller puiser dans la base de données toutes les données relatives à chacun des actifs, va ensuite faire appel à un ou plusieurs services web extérieurs qui vont en donner la valeur à l’instant T (son cours de bourse s’il s’agit d’une valeur mobilière ou sa cote s’il s’agit d’un autre type de bien) et enfin calculer la valeur de l’ensemble comme si toutes les données étaient disponibles en local.

C’est IBM qui a initié ce mouvement avec le projet Xperanto (mais, hélas, le produit final ne devrait pas s’appeler ainsi mais plutôt IBM DB2 Information Integrator, dommage…) qui reprend, entre autres, le projet open source XQuery. XQuery, est un langage d’interrogation basé sur XML pour permettre l’accès à tous les types de données, structurées comme non structurées. Car c’est là un des grands avantages de l’approche fédérée : on peut attaquer des sources de contenus non-database comme les documents (feuilles Excel), les bases d’emails en plus des traditionnelles bases de données relationnelles.
L’autre grand avantage de l’approche fédératrice est que les données restent dans leurs formats d’origine et à leurs emplacements d’origine, là où elles sont le mieux.
On évite aussi les opérations d’extraction-transformation-chargement (assurées aujourd’hui par les outils d’ETL) qui sont lentes, périodiques (et donc espacées dans le temps) et propices aux erreurs.

Donc, plutôt que d’essayer de créer (et de maintenir) une seule grande base de données, l’approche fédérée repose sur le création d’un schéma d’une base de données virtuelle qui contient tous les liens et tous les descriptifs nécessaires à ces liens vers les sources de données sélectionnées. L’utilisateur ne perçoit qu’une vue unique générée par le schéma virtuel et une requête adressée à ce schéma est décomposée en autant de requêtes natives que nécessaires.
Chaque requête « native » est formée dans le langage approprié (SQL par exemple s’il s’agit d’une base de données gérée par un SGBDR) et envoyée vers l’emplacement référencé dans la base de données virtuelle. Les différents data-set (les résultats des requêtes) sont ensuite agrégés au niveau de la base de données virtuelle afin de former un tout cohérent avec la vue présentée par le schéma.

Les acteurs du marché se positionnent

IBM n’est pas le seul champion de cette nouvelle technique, BEA avec Liquid Data est le premier à avoir proposé à la vente un environnement qui reprend ce concept. BEA présente son produit ainsi « Liquid data est conçu pour vous donner toutes les fonctionnalités d’un datamart sans vous obliger à passer par un ETL », ce qui résume assez bien la promesse de départ.
Microsoft est sur le coup également puisque la prochaine version de SQL Server (projet Yukon) a été conçue justement pour être capable de manipuler du XML provenant de différentes origines. Les acteurs habituels de l’informatique décisionnelle sont aussi de la partie comme Business Objects qui vient de présenter la version 6.0 de son logiciel Data Integrator qui propose des connecteurs vers SAP, Oracle Applications, Siebel, PeopleSoft, J.D.Edwards ainsi que vers IBM IMS/VS, IBM VSAM, IDMS, et ADABAS à travers un module appelé Detail.

Bien évidemment, un mouvement comme celui-là est d’abord né grâce à des start-up spécialisées qui ont défriché le terrain et perfectionné la technique au-delà des projets de laboratoire. Les acteurs de cette catégorie les plus prometteurs sont Apama, Nimble Technology, Xyleme, e-XMLMedia et MetaMatrix.
Mais, pour le moment, Oracle n’a pas encore embrayé sur cette tendance alors que les observateurs du marché les plus clairvoyants pensent qu’on est là face à un tournant du marché pour les éditeurs de base de données. En effet, ces éditeurs vont devoir adapter leurs produits au nouveau paradigme qui veut qu’on ne se contente plus de gérer les données qu’on abrite physiquement mais qu’on doit être capable d’élargir cette gestion à tout un ensemble de données que l’on « fédère »…

De plus, une part croissante d’informations est désormais stockée dans des documents au format XML (ne serait-ce que les documents MS Office !) ou dans des sites web où le format XML prend progressivement sa part. La capacité à interroger des données dans ce format va donc devenir incontournable.

On est donc face à un mouvement qui, plutôt que de seulement s’attaquer à la pratique du datawarehouse (qui, d’ailleurs, devrait perdurer), va renouveler le domaine du décisionnel.
Au lieu d’être cantonné au domaine de l’analyse sur des données « froides », le décisionnel va pouvoir se développer et s’exprimer sur les données « chaudes », les données opérationnelles. Du coup, les applications dites décisionnelles vont pouvoir elles aussi passer à un statut directement opérationnel et sortir du cadre classique requête/rapport.
Grâce aux bases de données virtuelles/fédérées c’est tout un nouveau champ applicatif qui s’ouvre : celui de l’entreprise réactive en prise directe avec l’événement au moment où il se produit.