Note: Votre adresse mail est protégée. Elle ne sera pas communiquée à de tierces compagnies.
Les systémes ETL
Par:
manfouo steve
I- Principes
Pour continuer dans la série de publications propres au monde du décisionnel, nous allons parler des ETL (extract transform load).
L’approche décisionnelle comme nous l'avons présenter dans l'article intitulé (Système d'Informations Décisionnels), est basée sur le principe qu'un ensemble de données disparates issues des bases de productions chacune liée à un métier intègrent le processus de décision de l'entreprise. L'idée étant de construire un magasin de données (Datawarehouse) assez général sur lequel les experts du domaine pourront avoir toutes les informations voulues.
Ainsi donc, pour l’alimenter cet entrepôt, on utilise une gamme ou multitude d'outils connus sous le nom de ETL (" Extract, Transform, Load "). Comme son nom l'indique, ces outils permettent d'extraire des données à partir de différentes sources, d'y effectuer des transformations (formatage, fusion, filtrages, etc.), et de les charger dans une nouvelle base cible connue sous le nom d'entrepôt ou datawarehouse.
Entre autre, un ETL permet :
- d'éviter la réalisation des traitements récurrents
- d'effectuer le mapping (correspondance entre attributs) des données issues de différentes sources de données homogènes
II- Outils ETL
On distingue une liste assez importante d'outils realisant les fonctions ETL.
" Pentaho bussiness suite
" Ascential DataStage (qui a acheté Mercator Inside Integrator)
" BusinessObjects Data Integrator
" Cognos DecisionStream ( Data Manager)
" ETI (Evolutionary Technologies International)
" Talend open studio
" IBM DB2 Data Warehouse Manager
" Informatica (PowerCenter et SuperGlue)
" Microsoft SQL Server DTS
" Oracle Warehouse Builder
III- L'ETL Vs l'ELT
Ces deux notations, bien que similaires du point de vue des termes qui les composent à savoir (extraction, transformation et chargement (Load)) sont en fait deux modes complètement différents de fonctionnement.
On parlera d'ETL lorsque chaque serveur distinct se voit installé un moteur ou engine. C'est ce dernier qui réalise toute l'activité de l'ETL à savoir les transformations et filtrages sur les données qu'il a extraites des sources. Une fois cela réalisé, il les charge dans une cible qui lui à été indiqué (notons bien que les données chargées sont préalablement traitées et filtrées par le moteur ETL).
On parlera d'ELT dans la mesure où un code sql est généré et ce dernier est natif à chaque moteur de base de données impliqué dans le processus source et cible.Ici, les fonctionnalités propres à chaque base de données sont exploitées pour effectuer et optimiser la réalisation des transformations sur les données qui lui sont fournies par le moteur ELT. Cela implique un certain nombre de préréquis à savoir les requêtes de transformation doivent respecter la syntaxe spécifique au SGBD en question. (Notons que ici le moteur extrait et charge (load) mais laisse le soin au SGBD cible d'effectuer les transformations).
Il est cependant possible de coupler les deux approches pour tirer partie des deux avantages.
IV- catégories d'ETL
Actuellement trois catégories d'outils ETL existent
a- Engine-based : les transformations sont exécutées sur un serveur ETL, disposant en général d'un référentiel. Ce genre de d'outil dispose d'un moteur de transformation ;
b- Database-embedded : les transformations sont intégrées dans la BD ;
c- Code-generators : les transformations sont conçues et un code est généré. Ce code est déployabe indépendamment de la base de données.
V- Avantages des suites ETL
Nous ne citerons ici que quelques uns:
- Production automatique par le référentiel de l'ETL des rapports de mise en correspondance de données et d'analyse des dépendances
- Très bonne performance des outils ETL surtout lorsqu'il s'agit de masses importantes de données.
- Gestion le cas échéant des scénarios d'équilibre de charge entre serveurs par les ETL
- Développement simple, moins coûteux etc...
VI- Conclusion
Cet article présente le principe ETL dans l'architecture du décisionnel. L'on présente à quel niveau le moteur ETL intervient et la portée de son action en occurrence selon le type d'ETL. Enfin les avantages et la comparaison ETL/ELT permettent aux futurs utilisateurs de cette technologie de bien s'en tirer déjà dans le choix mais aussi dans l'architecture à mettre sur pied.
manfouo steve consultant en Informatique - yaoundé CMR
Vous
êtes autorisé à reproduire cet article sur votre site,
votre newsletter ou votre blog à condition de respecter
les 'Termes
et conditions' de Contenu-Gratuit.com et
de maintenir les liens cliquables .
Quand j'étais salarié, je passais près de trois heures dans les trajets quotidiens, coïncé dans les transports en communs, les embouteillages, et je rentrais le soir épuisé.
Depuis que je travaille sur internet, j'ai beaucoup plus de temps disponible, je profite mieux de ma famille, et suis plus détendu.
annoncesjaunes.fr, le site de petites annonces lancé en janvier 2007, poursuit son développement sur le secteur automobile en signant 3 nouveaux accords avec le Groupement National des Concessionnaires Opel (GNCO), le Groupement des Concessionnaires Renault (GCR) et BMW Group France.
N'avez vous jamais rêvé de savoir installer vous même un script, de réaliser une vidéo, de savoir vous servir de camstudio ou camtasia...sans passer des heures à comprendre comment cela fonctionne?
Voulez-vous maitriser et profiter au maximum des possibilités de votre hébergeur? Voulez-vous créer vos propres liens?
Tout est enfin à votre portée, même si vous êtes novice dans le domaine!
Existerait- il une Méthode plus Facile pour Changer Durablement de l'Intérieur et Sans Effort?