Orsys IT Training CERTifications menu
filiale du groupe ORSYS Formation
www.orsys.com

Formation Data Engineering on Google Cloud Platform
Cours officiel, préparation aux examens de certification Google Cloud

Stage pratique
New
Durée : 4 jours
Réf : DGC
Prix  2022 : 2290 € H.T.
Pauses et déjeuners offerts
  • Programme
  • Participants / Prérequis
  • Intra / sur-mesure

Avec cette formation, vous apprendrez à concevoir et créer des systèmes de traitement des données sur Google Cloud Platform. Grâce à de nombreux travaux pratiques, vous apprendrez à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Cette formation couvre les données structurées, non structurées et en streaming.

Objectifs pédagogiques

  • Concevoir et développer des systèmes de traitement des données sur Google Cloud
  • Traiter des données par lot ou par flux en mettant en œuvre des pipelines de données d'autoscaling sur Dataflow
  • Obtenir des insights métier à partir d'ensembles de données extrêmement volumineux à l'aide de BigQuery
  • Exploiter des données non structurées à l'aide de Spark et des interfaces de programmation de ML sur Dataproc
  • Obtenir des insights immédiats à partir de flux de données
  • Découvrir les API de machine learning (ML) et BigQuery ML, et apprendre à utiliser Cloud AutoML

Méthodes pédagogiques

Animation de la formation en français. Support de cours officiel en anglais.

Certification

Nous vous recommandons de suivre cette formation si vous souhaitez préparer la certification "Google Cloud Professional Data Engineer".
PROGRAMME DE FORMATION

Introduction à l'ingénierie des données

  • Explorer le rôle d'un data engineer.
  • Analyser les défis de l'ingénierie des données.
  • Introduction à BigQuery.
  • Les data lakes et les data warehouses.
  • Démonstration "Federated Queries avec BigQuery".
  • Bases de données transactionnelles versus data warehouses.
  • Démonstration "Recherche de données personnelles dans votre jeu de données avec l'API DLP".
  • Travailler efficacement avec d’autres équipes de données.
  • Gérer l’accès aux données et gouvernance.
  • Construire des pipelines prêts pour la production.
  • Étude de cas d'un client Google Cloud Platform (GCP).

Travaux pratiques
Analyse de données avec BigQuery.

Construire un data lake

  • Introduction aux data lakes.
  • Stockage de données et options ETL sur GCP.
  • Construction d’un data lake à l’aide de Cloud Storage.
  • Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage.
  • Sécurisation de Cloud Storage.
  • Stocker tous les types de données.
  • Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery.
  • Cloud SQL en tant que data lake relationnel.

Travaux pratiques
Charger la BDD Taxis dans le Cloud SQL.

Construire un data warehouse

  • Le data warehouse moderne.
  • Introduction à BigQuery.
  • Démonstration : requêtes de Terabits de données en quelques secondes.
  • Chargement de données.
  • Démonstration : interroger Cloud SQL à partir de BigQuery.
  • Explorer les schémas.
  • Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA.
  • Conception de schémas.
  • Champs imbriqués et répétés.
  • Champs imbriqués et répétés dans BigQuery.
  • Optimiser le partitionnement et le clustering.
  • Démonstration : tables partitionnées et groupées dans BigQuery.
  • Transformation de données par lots et en continu.

Travaux pratiques
Charger des données avec la console et la CLI. Travailler avec les tableaux et les structures.

Introduction à la construction de pipelines de données par lots

  • Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données).
  • Les considérations de qualité.
  • Comment effectuer des opérations dans BigQuery.
  • Démonstration : ELT pour améliorer la qualité des données dans BigQuery.
  • Les lacunes.
  • ETL pour résoudre les problèmes de qualité.

Exécution de Spark sur Cloud Dataproc

  • L'écosystème Hadoop.
  • Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS.
  • Optimiser Dataproc.

Travaux pratiques
Exécuter des jobs Apache Spark sur Cloud Dataproc.

Traitement de données sans serveur avec Cloud Dataflow

  • Cloud Dataflow.
  • Pourquoi les clients apprécient-ils Dataflow ?
  • Pipelines de flux de données.
  • Templates Dataflow.
  • Dataflow SQL.

Travaux pratiques
Pipeline de flux de données simple (Python/Java). MapReduce dans un flux de données (Python/Java). Entrées latérales (Python/Java).

Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

  • Création visuelle de pipelines de données par lots avec Cloud Data Fusion.
  • Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environnement - DAG et opérateurs.
  • Démonstration : chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage...
  • Surveillance et journalisation.

Travaux pratiques
Construire et exécuter un graphe de pipeline dans Cloud Data Fusion (composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler). Utilisation de Cloud Composer.

Introduction au traitement de données en streaming

  • Traitement des données en streaming.

Serverless messaging avec Cloud Pub/Sub

  • Présentation de Cloud Pub/Sub.

Travaux pratiques
Publier des données en continu dans Pub/Sub.

Fonctionnalités streaming du Cloud Dataflow

  • Fonctionnalités streaming de Cloud Dataflow.

Travaux pratiques
Pipelines de données en continu.

Fonctionnalités streaming à haut débit BigQuery et Bigtable

  • Fonctionnalités streaming BigQuery.
  • Cloud Bigtable.

Travaux pratiques
Analyse en continu et tableaux de bord. Pipelines de données en continu vers Bigtable.

Fonctionnalités avancées de BigQuery et performance

  • Fonctionnalités "Analytic Window".
  • Utilisation des clauses With.
  • Fonctions SIG.
  • Démonstration : cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz.
  • Considérations de performance.

Travaux pratiques
Optimiser vos requêtes BigQuery pour la performance. Créer des tables partitionnées par date dans BigQuery (optionnel).

Introduction à l'analytique et à l'intelligence artificielle

  • Qu'est-ce que l'intelligence artificielle (IA) ?
  • De l’analyse de données ad hoc aux décisions basées sur les données.
  • Options pour modèles de machine learning (ML) sur Google Cloud Platform.

API de modèles de ML prédéfinies pour les données non structurées

  • Les données non structurées sont difficiles à utiliser.
  • API ML pour enrichir les données.

Travaux pratiques
Utiliser l’interface de programmation des applications (API) en langage naturel pour classer le texte non structuré.

Big Data Analytics avec les notebooks Cloud AI Platform

  • Qu'est-ce qu'un notebook ?
  • BigQuery Magic et liens avec Pandas.

Travaux pratiques
BigQuery dans Jupyter Labs sur IA Platform.

Pipelines de production de machine learning avec Kubeflow

  • Façons de faire du machine learning (ML) sur Google Cloud Platform.
  • Kubeflow AI Hub.
  • Artificial Intelligence (AI) Hub.

Travaux pratiques
Utiliser des modèles d'IA sur Kubeflow.

Création de modèles personnalisés avec SQL dans BigQuery ML

  • BigQuery ML pour la construction de modèles rapides.
  • Démonstration : entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxis à New York.
  • Modèles pris en charge.

Travaux pratiques
Recommandations de films dans BigQuery ML.

Création de modèles personnalisés avec Cloud AutoML

  • Pourquoi AutoML ?
  • Auto ML Vision.
  • Auto ML Natural Language Processing (NLP).
  • Auto ML Tables.

» Participants

Développeurs expérimentés responsables de la gestion des transformations des méga données notamment l’extraction, le chargement, la transformation, le nettoyage et la validation des données.

» Prérequis

Avoir suivi "Google Cloud Fundamentals : big data et machine learning" ou connaissances équivalentes et des compétences en langage de requête, en modélisation de données, en Python et en statistiques.

Demande de devis intra-entreprise
(réponse sous 48h)

Vos coordonnées

En cochant cette case, j’atteste avoir lu et accepté les conditions liées à l’usage de mes données dans le cadre de la réglementation sur la protection des données à caractère personnel (RGPD).
Vous pouvez à tout moment modifier l’usage de vos données et exercer vos droits en envoyant un email à l’adresse rgpd@orsys.fr
En cochant cette case, j’accepte de recevoir les communications à vocation commerciale et promotionnelle de la part d’ORSYS Formation*
Vous pouvez à tout moment vous désinscrire en utilisant le lien de désabonnement inclus dans nos communications.
* Les participants inscrits à nos sessions de formation sont également susceptibles de recevoir nos communications avec la possibilité de se désabonner à tout moment.

[+]
PARIS

Les cours ont lieu de 9h à 12h30 et de 14h à 17h3 0.
Les participants sont accueillis à partir de 8h45.
Pour les stages pratiques de 4 ou 5 jours, les sessions se terminent à 15h30 le dernier jour.