Ingénierie Réseaux & Télécoms Niveau

Building Batch Data Analytics Solutions on AWS (BBDAS)

Construisez des pipelines d’analytique batch performants sur AWS avec Amazon EMR, Spark et Hadoop !

Dates à venir Certifiant Eligible OPCO

Vue d'ensemble

Cette formation vous apprend à concevoir et mettre en œuvre des solutions d’analyse de données en mode batch à l’aide d’Amazon EMR, le service managé d’AWS pour Apache Spark et Apache Hadoop. Vous découvrirez comment EMR s’appuie sur des composants open source tels que Apache Hive, Hue et HBase, et comment il s’intègre avec des services AWS comme AWS Glue et AWS Lake Formation.
Le cours aborde l’ensemble de la chaîne data — collecte, ingestion, catalogage, stockage et traitement — dans un contexte Spark/Hadoop. Vous apprendrez également à exploiter EMR Notebooks pour des cas d’usage d’analytique et de machine learning, tout en appliquant les bonnes pratiques de sécurité, de performance et de maîtrise des coûts dans l’exploitation d’Amazon EMR.
Cette formation s’inscrit dans le parcours de préparation à la certification AWS Certified Data Engineer – Associate.
Prérequis

Disposer idéalement d’au moins 1 an d’expérience sur des frameworks data open source (ex.
Apache Spark ou Apache Hadoop).
Recommandé : avoir suivi Architecting on AWS (AWSA) ou AWS Technical Essentials (AWSE).
Recommandé : avoir suivi Building Data Lakes on AWS (BDLA) ou Getting Started with AWS Glue.

Objectifs pédagogiques

Distinguer les apports des data warehouses, data lakes et des architectures data modernes.
Concevoir et déployer une solution d’analytique batch de bout en bout.
Optimiser le stockage des données (dont l’usage de la compression) selon les besoins.
Choisir les approches adaptées pour ingérer, transformer et stocker les données.
Sélectionner les bons paramètres EMR (types d’instances/nœuds, clusters, auto scaling, topologie réseau) selon le cas d’usage.
Expliquer l’impact des choix de stockage et de traitement sur l’analyse et la visualisation des résultats.
Mettre en place la sécurisation des données au repos et en transit.
Surveiller les charges analytiques, diagnostiquer les incidents et appliquer les bonnes pratiques de pilotage des coûts.

Programme détaillé

Prochaines sessions

Aucune session inter-entreprises n'est planifiée pour le moment. Contactez-nous pour une session sur-mesure (Intra).

Avis des participants

4.7/5
Taux de satisfaction global 94%
Basé sur les retours stagiaires certifiés

Financement

Cette formation est éligible aux financements OPCO et FNE-Formation. Nos équipes vous accompagnent dans le montage de votre dossier.

En savoir plus sur le financement