> Toutes nos certifications > Serverless Data Processing with Dataflow
Nouvelle formation

Formation : Serverless Data Processing with Dataflow

Cours officiel, préparation aux examens de certification Google Cloud

Serverless Data Processing with Dataflow

Cours officiel, préparation aux examens de certification Google Cloud
Télécharger au format pdf Partager cette formation par e-mail 2

Télécharger au format pdf Partager cette formation par e-mail 2

Avec cette formation, vous découvrirez comment Apache Beam et Dataflow fonctionnent ensemble pour répondre à vos besoins de traitement de données sans risque de dépendance vis-à-vis d’un fournisseur. Vous apprendrez comment convertir votre logique métier en applications de traitement de données pouvant s’exécuter sur Dataflow. La formation se termine par un focus sur les opérations qui passe en revue les leçons les plus importantes pour exploiter une application de données sur Dataflow, y compris la surveillance, le dépannage, les tests et la fiabilité.


Intra
Sur mesure

Formation dans vos locaux, chez nous ou à distance

Réf. SDD
  3j - 21h
Vous souhaitez transposer cette formation, sans modification, pour votre entreprise ?




Avec cette formation, vous découvrirez comment Apache Beam et Dataflow fonctionnent ensemble pour répondre à vos besoins de traitement de données sans risque de dépendance vis-à-vis d’un fournisseur. Vous apprendrez comment convertir votre logique métier en applications de traitement de données pouvant s’exécuter sur Dataflow. La formation se termine par un focus sur les opérations qui passe en revue les leçons les plus importantes pour exploiter une application de données sur Dataflow, y compris la surveillance, le dépannage, les tests et la fiabilité.

Objectifs pédagogiques
À l’issue de la formation, le participant sera en mesure de :
  • Démontrer comment Apache Beam et Dataflow fonctionnent ensemble
  • Résumer les avantages de Beam Portability Framework et l'activer pour vos pipelines Dataflow.
  • Activer Shuffle et Streaming Engine, pour les pipelines batch et streaming, pour des performances maximales
  • Activer la planification flexible des ressources pour des performances plus rentables
  • Sélectionner la bonne combinaison d’autorisations IAM pour votre tâche Dataflow
  • Mettre en œuvre les meilleures pratiques pour un environnement de traitement de données sécurisé
  • Sélectionner et ajuster les E/S de votre choix pour votre pipeline Dataflow
  • Utiliser des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline
  • Développer un pipeline Beam en utilisant SQL et DataFrames
  • Effectuer la surveillance, le dépannage, les tests et la CI/CD sur les pipelines Dataflow

Public concerné
Data engineer, data analysts et data scientists aspirant à développer des compétences en ingénierie des données.

Prérequis
Avoir suivi le cours "Data Engineering on Google Cloud Platform" Réf DGC ou avoir des connaissances équivalentes.
Vous recevrez par mail des informations permettant de valider vos prérequis avant la formation.

Programme de la formation

Portabilité de Beam

  • Résumer les avantages du Beam Portability Framework.
  • Personnaliser l’environnement de traitement des données de votre pipeline à l’aide de conteneurs personnalisés.
  • Examiner les cas d’utilisation pour les transformations Cross-Language.
  • Activer le Beam Portability Framework pour vos pipelines Dataflow.

Séparer le calcul et le stockage avec Dataflow

  • Activer Shuffle et Streaming Engine, pour les pipelines batch et streaming, pour des performances maximales.
  • Activer la planification flexible des ressources pour des performances plus rentables.

IAM, Quotas et Permissions

  • Sélectionner la bonne combinaison d’autorisations IAM pour votre tâche Dataflow.
  • Déterminer vos besoins en capacité en inspectant les quotas pertinents pour vos tâches Dataflow.

Sécurité

  • Sélectionner une stratégie de traitement des données zonales à l’aide de Dataflow.
  • Mettre en œuvre les meilleures pratiques pour un environnement de traitement de données sécurisées.

Revue des concepts de Beam

  • Passer en revue les principaux concepts d’Apache Beam (Pipeline, PCollections, PTransforms, Runner, lecture/écriture..).
  • Passer en revue les bundles et le cycle de vie DoFn.

Windows, Watermarks, Triggers

  • Implémenter une logique pour gérer vos données tardives.
  • Passer en revue les différents types de déclencheurs.
  • Passer en revue les principaux concepts de diffusion en continu (unbounded PCollections, windows).

Sources et Sinks

  • Écrire sur les IO de votre choix pour votre pipeline Dataflow.
  • Ajuster votre transformation Source/Sink pour des performances maximales.
  • Créer des Sources et des sinks personnalisés à l’aide de SDF.

Schémas

  • Introduire des schémas qui donnent aux développeurs un moyen d’exprimer des données dans leurs pipelines Beam.
  • Utiliser des schémas pour simplifier votre code Beam et améliorer les performances de votre pipeline.

État et Timers

  • Identifier les cas d’utilisation pour les implémentations d’API d’état et de timer.
  • Sélectionner le bon type d’état et de timers pour votre pipeline.

Bonnes pratiques

  • Mettre en œuvre les bonnes pratiques pour les pipelines Dataflow.

Dataflow SQL et DataFrames

  • Développer un pipeline Beam en utilisant SQL et DataFrames.

Notebooks Beam

  • Prototyper votre pipeline en Python à l’aide des notebooks Beam.
  • Lancer une tâche dans Dataflow à partir d’un notebooks.

Monitoring

  • Accéder à l’interface utilisateur des détails de la tâche Dataflow.
  • Interpréter les graphiques de métriques de travail pour diagnostiquer les régressions du pipeline.
  • Définir des alertes sur les tâches Dataflow à l’aide de Cloud Monitoring.
  • Utiliser les journaux Dataflow et les widgets de diagnostic pour résoudre les problèmes de pipeline.

Dépannage et débogage

  • Utiliser une approche structurée pour déboguer vos pipelines Dataflow.
  • Examiner les causes courantes des défaillances de pipeline.

Performance

  • Comprendre les considérations de performances pour les pipelines.
  • Tenir compte de la façon dont la forme de vos données peut affecter les performances du pipeline.

Testing et CI/CD

  • Approches de test pour votre pipeline Dataflow.
  • Passez en revue les frameworks et les fonctionnalités disponibles pour rationaliser votre flux de travail CI/CD.

Fiabilité

  • Mettre en œuvre les bonnes pratiques en matière de fiabilité pour vos pipelines Dataflow.

Flex Templates

  • Utiliser des Flex Templates pour standardiser et réutiliser le code du pipeline Dataflow.


Certification
Nous vous recommandons de suivre cette formation si vous souhaitez préparer la certification "Google Cloud Professional Data Engineer".
Comment passer votre examen ?

Modalités pratiques
Méthodes pédagogiques;
Animation de la formation en français. Support de cours officiel au format numérique et en anglais. Bonne compréhension de l'anglais à l'écrit.

Modalités d'évaluation
Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…
Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Solutions de financement
Pour trouver la meilleure solution de financement adaptée à votre situation : contactez votre conseiller formation.
Il vous aidera à choisir parmi les solutions suivantes :
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.
  • Le plan de développement des compétences de votre entreprise : rapprochez-vous de votre service RH.
  • Le dispositif FNE-Formation
  • L’OPCO (opérateurs de compétences) de votre entreprise.
  • Pôle Emploi sous réserve de l’acceptation de votre dossier par votre conseiller Pôle Emploi.

Horaires
En présentiel, les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.
Pour les stages pratiques de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 15h30 le dernier jour.