Avec cette formation, vous prendrez en main Cloud Data Fusion, un plate-forme d’intégration de données, permettant de créer et de gérer rapidement des pipelines de données. Vous aborderez les défis liés à l’intégration de données et la nécessité d’une plate-forme d’intégration de données. Vous verrez les composants de Cloud Data Fusion, comment traiter les données par lots et les données de diffusion en temps réel avec une conception de pipeline visuel, un suivi approfondi des métadonnées et de la lignée des données, et comment déployer des pipelines de données sur divers moteurs d’exécution.
Avec cette formation, vous prendrez en main Cloud Data Fusion, un plate-forme d’intégration de données, permettant de créer et de gérer rapidement des pipelines de données. Vous aborderez les défis liés à l’intégration de données et la nécessité d’une plate-forme d’intégration de données. Vous verrez les composants de Cloud Data Fusion, comment traiter les données par lots et les données de diffusion en temps réel avec une conception de pipeline visuel, un suivi approfondi des métadonnées et de la lignée des données, et comment déployer des pipelines de données sur divers moteurs d’exécution.
À l’issue de la formation, le participant sera en mesure de :
- Identifier le besoin d’intégration de données
- Comprendre les fonctionnalités fournies par Cloud Data Fusion en tant que plate-forme d’intégration de données
- Identifier les cas d’utilisation pour une éventuelle mise en œuvre avec Cloud Data Fusion
- Répertorier les composants principaux de Cloud Data Fusion
- Concevoir et exécuter des pipelines de traitement de données par lots et en temps réel
- Travailler avec Wrangler pour créer des transformations de données
- Utiliser des connecteurs pour intégrer des données de différentes sources et formats
- Configurer l’environnement d’exécution
- Comprendre la relation entre les métadonnées et la lignée des données
- Surveiller et dépanner l’exécution du pipeline
Data Engineer, Data Analyst.
Avoir suivi le cours « Big Data and Machine Learning Fundamentals » Réf. GCD ou avoir des connaissances équivalentes.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.
Programme de la formation
Introduction à l’intégration de données et Cloud Data Fusion
- Comprendre le besoin d’intégration de données.
- Lister les situations/cas où l’intégration de données peut aider les entreprises.
- Lister les plateformes et outils d’intégration de données disponibles.
- Identifier les défis liés à l’intégration des données.
- Comprendre l’utilisation de Cloud Data Fusion en tant que plate-forme d’intégration de données.
- Créer une instance Cloud Data Fusion.
- Découvrir le framework de base et les principaux composants de Cloud Data Fusion.
Construire des pipelines
- Comprendre l’architecture de Cloud Data Fusion.
- Définir ce qu’est un pipeline de données.
- Comprendre la représentation DAG d’un pipeline de données.
- Apprendre à utiliser Pipeline Studio et ses composants.
- Concevoir un pipeline simple à l’aide de Pipeline Studio.
- Déployer et exécuter un pipeline.
Construire des pipelines complexes
- Effectuer des opérations de branchement, de fusion et de jointure.
- Exécuter le pipeline avec des arguments d’exécution à l’aide de macros.
- Travailler avec des gestionnaires d’erreurs.
- Exécuter des exécutions pré- et post-pipeline à l’aide d’actions et de notifications.
- Planifier l’exécution des pipelines.
- Importer et exporter des pipelines existants.
Environnement d’exécution du pipeline
- Comprendre la composition d’un environnement d’exécution.
- Configurer l’environnement d’exécution, la journalisation et les métriques de votre pipeline.
- Comprendre des concepts tels que le profil de calcul et l’approvisionneur.
- Créer un profil de calcul.
- Créer des alertes de pipeline.
- Surveiller le pipeline en cours d’exécution.
Construire des transformations et préparer des données avec Wrangler
- Comprendre l’utilisation de Wrangler et de ses principaux composants.
- Transformer les données à l’aide de l’interface utilisateur Wrangler.
- Transformer les données à l’aide de directives/méthodes CLI.
- Créer et utiliser des directives définies par l’utilisateur.
Connecteurs et pipelines de streaming
- Comprendre l’architecture d’intégration de données.
- Lister les différents connecteurs.
- Utiliser l’API Cloud Data Loss Prevention (DLP).
- Comprendre l’architecture de référence des pipelines de streaming.
- Construire et exécuter un pipeline de streaming.
Métadonnées et lignage des données
- Répertorier les types de métadonnées.
- Différencier les métadonnées commerciales, techniques et opérationnelles.
- Comprendre ce qu’est le lignage des données.
- Comprendre l’importance de maintenir la lignée des données.
- Différencier les métadonnées et le lignage des données.
Nous vous recommandons de suivre cette formation si vous souhaitez préparer la certification "Google Cloud Professional Data Engineer".
Comment passer votre examen ?
Méthodes pédagogiques;
Animation de la formation en français. Support de cours officiel en anglais et au format numérique. Bonne compréhension de l’anglais à l’écrit.
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.
Il vous aidera à choisir parmi les solutions suivantes :
- Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
- Le dispositif FNE-Formation
- L’OPCO (opérateurs de compétences) de votre entreprise.
- France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
- Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
- Le dispositif FNE-Formation
- L’OPCO (opérateurs de compétences) de votre entreprise.
- France Travail sous réserve de l’acceptation de votre dossier par votre conseiller France Travail.
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.