Dernière mise à jour : 15/11/2024
Apache Spark est un moteur d'analyses unifiées ultra-rapide pour le big data et le machine learning. Depuis sa sortie, il a connu une adoption rapide par les entreprises de secteurs très divers. Des acteurs majeurs du monde de l'internet tels que Netflix, Yahoo et eBay l'ont déployé à très grande échelle, traitant ensemble plusieurs peta-octets de données sur des clusters de plus de 8 000 nœuds.
En deux jours, cette formation propose un panorama pratique de la solution Apache Spark en alternant des présentations théoriques et des exercices pratiques. Ce module couvre les APIs de base de Spark, les fondamentaux et les mécanismes du framework, mais aussi les outils de plus haut-niveau, dont SQL, ainsi que ses capacités de traitement en streaming et l'API de machine learning.
A l'issue de la session, les notebooks peuvent être conservés et être réutilisés dans le service cloud gratuit Databricks Community Edition, pour lequel la compatibilité est garantie. Il est également possible d'exporter le notebook sous forme de code source pour exécution sur n'importe quel environnement Spark.
Ce cours officiel prépare à la certification "Databricks Certified Associate Developer for Apache Spark 3.0". La certification se passe après la formation et n'est pas obligatoire.
Cette formation permet de préparer la certification Databricks Certified Associate Developer for Apache Spark.
L'inscription à la certification vous sera proposée de façon optionnelle au tarif de 240,00 € HT par tentative.
Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience du formateur, complétés de travaux pratiques et de mises en situation. La formation mélange les langages Python et Scala.
Chaque sujet abordé comprend une partie d'exposé couplée à une mise en pratique de Spark au travers d'un environnement type notebook web. Inspiré d'outils tels IPython/Jupyter, les notebooks permettent aux participants de développer des jobs, des requêtes d'analyse et des représentations visuelles s'appuyant sur leur propre cluster Spark, le tout depuis leur navigateur web.
Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.
Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.
Par ailleurs, pour animer cette formation, nos intervenant·es doivent également avoir suivi un parcours d'habilitation imposé par Databricks, Inc.
L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.
Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.
En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.
Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.
Jour 1
APERÇU DE SPARK ET DATAFRAMES
TRANSFORMATIONS ET MANIPULATIONS DE DONNÉES
Jour 2
OPTIMISATION DE SPARK
STRUCTURED STREAMING
CONCLUSION