> Formations > Data Engineering on Google Cloud Platform

Formation : Data Engineering on Google Cloud Platform

Cours officiel, préparation aux examens de certification Google Cloud

Data Engineering on Google Cloud Platform

Cours officiel, préparation aux examens de certification Google Cloud

Avec cette formation, vous apprendrez à concevoir et créer des systèmes de traitement des données sur Google Cloud Platform. Grâce à de nombreux travaux pratiques, vous apprendrez à concevoir des systèmes de traitement des données, à construire des pipelines de données de bout en bout, à analyser les données et à effectuer un apprentissage automatique. Cette formation couvre les données structurées, non structurées et en streaming.

INTRA

SUR MESURE

Formation dans vos locaux, chez nous ou à distance

Réf. DGC

4j - 28h00

Vous souhaitez transposer cette formation, sans modification, pour votre entreprise ? En français ou dans une autre langue ?

Télécharger le programme

Partager cette formation

Description
Programme
Financement

Objectifs pédagogiques

À l’issue de la formation, le participant sera en mesure de :

	Concevoir et développer des systèmes de traitement des données sur Google Cloud
	Traiter des données par lot ou par flux en mettant en œuvre des pipelines de données d'autoscaling sur Dataflow
	Obtenir des insights métier à partir d'ensembles de données extrêmement volumineux à l'aide de BigQuery
	Exploiter des données non structurées à l'aide de Spark et des interfaces de programmation de ML sur Dataproc
	Obtenir des insights immédiats à partir de flux de données
	Découvrir les API de machine learning (ML) et BigQuery ML, et apprendre à utiliser Cloud AutoML

Public concerné

Développeurs expérimentés responsables de la gestion des transformations des méga données notamment l’extraction, le chargement, la transformation, le nettoyage et la validation des données.

Prérequis

Il est recommandé d’avoir suivi les cours GDA, GDE ou GML (ou équivalent) et de posséder des notions en requêtes, modélisation de données, Python et statistiques.

Vous recevrez par mail des informations permettant de vérifier vos prérequis avant la formation.

Certification

Nous vous recommandons de suivre cette formation si vous souhaitez préparer la certification "Google Cloud Professional Data Engineer".

Méthodes et moyens pédagogiques

Méthodes pédagogiques

Animation de la formation en français. Support de cours officiel en anglais.

Modalités d'évaluation

Le formateur évalue la progression pédagogique du participant tout au long de la formation au moyen de QCM, mises en situation, travaux pratiques…

Le participant complète également un test de positionnement en amont et en aval pour valider les compétences acquises.

Programme de la formation

1
Introduction à l'ingénierie des données

Explorer le rôle d'un data engineer.
Analyser les défis de l'ingénierie des données.
Introduction à BigQuery.
Les data lakes et les data warehouses.
Démonstration "Federated Queries avec BigQuery".
Bases de données transactionnelles versus data warehouses.
Démonstration "Recherche de données personnelles dans votre jeu de données avec l'API DLP".
Travailler efficacement avec d’autres équipes de données.
Gérer l’accès aux données et gouvernance.
Construire des pipelines prêts pour la production.
Étude de cas d'un client Google Cloud Platform (GCP).

Travaux pratiques

Analyse de données avec BigQuery.

2
Construire un data lake

Introduction aux data lakes.
Stockage de données et options ETL sur GCP.
Construction d’un data lake à l’aide de Cloud Storage.
Démonstration : optimisation des coûts avec les classes et les fonctions cloud de Google Cloud Storage.
Sécurisation de Cloud Storage.
Stocker tous les types de données.
Démonstration : exécution de requêtes fédérées sur des fichiers Parquet et ORC dans BigQuery.
Cloud SQL en tant que data lake relationnel.

Travaux pratiques

Charger la BDD Taxis dans le Cloud SQL.

3
Construire un data warehouse

Le data warehouse moderne.
Introduction à BigQuery.
Démonstration : requêtes de Terabits de données en quelques secondes.
Chargement de données.
Démonstration : interroger Cloud SQL à partir de BigQuery.
Explorer les schémas.
Exploration des jeux de données publics BigQuery avec SQL à l’aide de INFORMATION_SCHEMA.
Conception de schémas.
Champs imbriqués et répétés.
Champs imbriqués et répétés dans BigQuery.
Optimiser le partitionnement et le clustering.
Démonstration : tables partitionnées et groupées dans BigQuery.
Transformation de données par lots et en continu.

Travaux pratiques

Charger des données avec la console et la CLI. Travailler avec les tableaux et les structures.

4
Introduction à la construction de pipelines de données par lots

Les approches d'intégration EL, ELT et ETL (Extraction, chargement et transformation de données).
Les considérations de qualité.
Comment effectuer des opérations dans BigQuery.
Démonstration : ELT pour améliorer la qualité des données dans BigQuery.
Les lacunes.
ETL pour résoudre les problèmes de qualité.

5
Exécution de Spark sur Cloud Dataproc

L'écosystème Hadoop.
Exécution de Hadoop sur Cloud Dataproc GCS au lieu de HDFS.
Optimiser Dataproc.

Travaux pratiques

Exécuter des jobs Apache Spark sur Cloud Dataproc.

6
Traitement de données sans serveur avec Cloud Dataflow

Cloud Dataflow.
Pourquoi les clients apprécient-ils Dataflow ?
Pipelines de flux de données.
Templates Dataflow.
Dataflow SQL.

Travaux pratiques

Pipeline de flux de données simple (Python/Java). MapReduce dans un flux de données (Python/Java). Entrées latérales (Python/Java).

7
Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

Création visuelle de pipelines de données par lots avec Cloud Data Fusion.
Orchestrer le travail entre les services GCP avec Cloud Composer - Apache Airflow Environnement - DAG et opérateurs.
Démonstration : chargement de données déclenché par un événement avec Cloud Composer, Cloud Functions, Cloud Storage...
Surveillance et journalisation.

Travaux pratiques

Construire et exécuter un graphe de pipeline dans Cloud Data Fusion (composants, présentation de l'interface utilisateur, construire un pipeline, exploration de données en utilisant Wrangler). Utilisation de Cloud Composer.

8
Introduction au traitement de données en streaming

Traitement des données en streaming.

9
Serverless messaging avec Cloud Pub/Sub

Présentation de Cloud Pub/Sub.

Travaux pratiques

Publier des données en continu dans Pub/Sub.

10
Fonctionnalités streaming du Cloud Dataflow

Fonctionnalités streaming de Cloud Dataflow.

Travaux pratiques

Pipelines de données en continu.

11
Fonctionnalités streaming à haut débit BigQuery et Bigtable

Fonctionnalités streaming BigQuery.
Cloud Bigtable.

Travaux pratiques

Analyse en continu et tableaux de bord. Pipelines de données en continu vers Bigtable.

12
Fonctionnalités avancées de BigQuery et performance

Fonctionnalités "Analytic Window".
Utilisation des clauses With.
Fonctions SIG.
Démonstration : cartographie des codes postaux à la croissance la plus rapide avec BigQuery GeoViz.
Considérations de performance.

Travaux pratiques

Optimiser vos requêtes BigQuery pour la performance. Créer des tables partitionnées par date dans BigQuery (optionnel).

13
Introduction à l'analytique et à l'intelligence artificielle

Qu'est-ce que l'intelligence artificielle (IA) ?
De l’analyse de données ad hoc aux décisions basées sur les données.
Options pour modèles de machine learning (ML) sur Google Cloud Platform.

14
API de modèles de ML prédéfinies pour les données non structurées

Les données non structurées sont difficiles à utiliser.
API ML pour enrichir les données.

Travaux pratiques

Utiliser l’interface de programmation des applications (API) en langage naturel pour classer le texte non structuré.

15
Big Data Analytics avec les notebooks Cloud AI Platform

Qu'est-ce qu'un notebook ?
BigQuery Magic et liens avec Pandas.

Travaux pratiques

BigQuery dans Jupyter Labs sur IA Platform.

16
Pipelines de production de machine learning avec Kubeflow

Façons de faire du machine learning (ML) sur Google Cloud Platform.
Kubeflow AI Hub.
Artificial Intelligence (AI) Hub.

Travaux pratiques

Utiliser des modèles d'IA sur Kubeflow.

17
Création de modèles personnalisés avec SQL dans BigQuery ML

BigQuery ML pour la construction de modèles rapides.
Démonstration : entraîner un modèle avec BigQuery ML pour prédire les tarifs de taxis à New York.
Modèles pris en charge.

18
Création de modèles personnalisés avec Cloud AutoML

Pourquoi AutoML ?
Auto ML Vision.
Auto ML Natural Language Processing (NLP).
Auto ML Tables.

Solutions de financement

Plusieurs solutions existent pour financer votre formation et dépendent de votre situation professionnelle.
Découvrez-les sur notre page Comment financer sa formation ou contactez votre conseiller formation.

Horaires

Les cours ont lieu de 9h à 12h30 et de 14h à 17h30.
Les participants sont accueillis à partir de 8h45. Les pauses et déjeuners sont offerts.

Pour les formations de 4 ou 5 jours, quelle que soit la modalité, les sessions se terminent à 16h le dernier jour.

Formation : Data Engineering on Google Cloud Platform

Data Engineering on Google Cloud Platform

1 Introduction à l'ingénierie des données

2 Construire un data lake

3 Construire un data warehouse

4 Introduction à la construction de pipelines de données par lots

5 Exécution de Spark sur Cloud Dataproc

6 Traitement de données sans serveur avec Cloud Dataflow

7 Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

8 Introduction au traitement de données en streaming

9 Serverless messaging avec Cloud Pub/Sub

10 Fonctionnalités streaming du Cloud Dataflow

11 Fonctionnalités streaming à haut débit BigQuery et Bigtable

12 Fonctionnalités avancées de BigQuery et performance

13 Introduction à l'analytique et à l'intelligence artificielle

14 API de modèles de ML prédéfinies pour les données non structurées

15 Big Data Analytics avec les notebooks Cloud AI Platform

16 Pipelines de production de machine learning avec Kubeflow

17 Création de modèles personnalisés avec SQL dans BigQuery ML

18 Création de modèles personnalisés avec Cloud AutoML

1
Introduction à l'ingénierie des données

2
Construire un data lake

3
Construire un data warehouse

4
Introduction à la construction de pipelines de données par lots

5
Exécution de Spark sur Cloud Dataproc

6
Traitement de données sans serveur avec Cloud Dataflow

7
Gestion des pipelines de données avec Cloud Data Fusion et Cloud Composer

8
Introduction au traitement de données en streaming

9
Serverless messaging avec Cloud Pub/Sub

10
Fonctionnalités streaming du Cloud Dataflow

11
Fonctionnalités streaming à haut débit BigQuery et Bigtable

12
Fonctionnalités avancées de BigQuery et performance

13
Introduction à l'analytique et à l'intelligence artificielle

14
API de modèles de ML prédéfinies pour les données non structurées

15
Big Data Analytics avec les notebooks Cloud AI Platform

16
Pipelines de production de machine learning avec Kubeflow

17
Création de modèles personnalisés avec SQL dans BigQuery ML

18
Création de modèles personnalisés avec Cloud AutoML