Data Science : niveau avancé Mixte : présentiel / à distance

Dernière mise à jour : 07/12/2024

Approfondir des concepts avancés de machine learning et enrichir sa boîte à outils de Data Scientist

Type : Stage pratique

Description

Le Big Data et la data science sont en train de changer le monde que nous connaissons. Avec la digitalisation sans cesse croissante de nos interactions et les progrès accomplis en matière d'intelligence artificielle, les entreprises ont de plus en plus recours aux algorithmes pour améliorer leurs processus de prise de décision et proposer de nouveaux services. Le Data scientist, à travers sa faculté à trouver à partir de l'exploitation des données une réponse adéquate à un problème fonctionnel donné, est au cœur de ces évolutions.

Après le module sur les bases de la Data science, la formation « Data Science : niveau avancé » vous permettra d'approfondir certains des concepts avancés de machine learning (feature engineering avancé, modèles ensemblistes…) utilisés notamment par les lauréats de concours Kaggle. Vous découvrirez également les techniques d'analyse et de traitement spécifiques aux données de type image ou texte (deep learning, réseaux de neurones convolutifs, réseaux récurrents,...).

Objectifs de la formation

  • Découvrir et utiliser la puissance prédictive des modèles ensemblistes
  • Savoir effectuer un "feature engineering" performant
  • Appréhender les techniques de text-mining et de deep-learning à travers des exemples concrets
  • Enrichir sa boite à outils de data scientist

Public visé

  • Analyste
  • Statisticien
  • Architecte
  • Développeur
  • Data scientist

Prérequis

  • Connaissances de base en programmation ou en scripting
  • Avoir suivi la formation "Fondamentaux de la Data Science" (DSDFX) serait en plus

Modalités pédagogiques

Formation avec apports théoriques, échanges sur les contextes des participants et retours d'expérience pratique du formateur, complétés de travaux pratiques et de mises en situation.

Profil du / des Formateur(s)

Cette formation est dispensée par un·e ou plusieurs consultant·es d'OCTO Technology ou de son réseau de partenaires, expert·es reconnus des sujets traités.

Le processus de sélection de nos formateurs et formatrices est exigeant et repose sur une évaluation rigoureuse leurs capacités techniques, de leur expérience professionnelle et de leurs compétences pédagogiques.

Modalités d'évaluation et de suivi

L'évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique.

Afin de valider les compétences acquises lors de la formation, un formulaire d'auto-positionnement est envoyé en amont et en aval de celle-ci.

En l'absence de réponse d'un ou plusieurs participants, un temps sera consacré en ouverture de session pour prendre connaissance du positionnement de chaque stagiaire sur les objectifs pédagogiques évalués.

Une évaluation à chaud est également effectuée en fin de session pour mesurer la satisfaction des stagiaires et un certificat de réalisation leur est adressé individuellement.

Programme

Jour 1

 

RAPPEL DES FONDAMENTAUX

Ecosystème Big Data et Data Science

Comment modéliser un problème de data science ?

Les différentes familles d'algorithmes (supervisé : classification/régression, non supervisé)

Les algorithmes classiques

Comment évaluer la performance ?

Sur apprentissage et compromis biais/variance

 

MODÈLES ENSEMBLISTES

Rappels

Pourquoi ça fonctionne ? Raisons théoriques

Introduction au stacking

  • Architecture et promesses du stacking
  • Feature weighted stacking
  • Mise en application

 

INTRODUCTION AU TEXT MINING

Un modèle de représentation : le bag of words

Normalisations usuelles

Stemming, lemmatization

Distances (Levenshtein, Hamming, Jaro-Winkler)

Word2Vec

 

Jour 2

 

FEATURE ENGINEERING AVANCÉ

Normalisation

  • Qu'est ce que la normalisation ?
  • Quand l'utiliser ?

 

Réduction de dimension (ACP, TSNE, LSA, etc)

Transformation et interactions entre variables

Traitement des variables catégorielles à haute dimensionnalité

Création de variables extraites d'arbres (Facebook Trick)

 

RÉSEAUX DE NEURONES ET DEEP LEARNING

L'origine : le perceptron

 

Les réseaux de neurones

 

Deep learning

  • Objectif : s'affranchir du feature engineering manuel
  • Convolution
  • Réseaux récurrents

 

Cas concret : reconnaissance de chiffres

 

APPRENTISSAGE SEMI-SUPERVISÉ

 

Jour 3

 

RAPPELS ET RÉVISIONS

Synthèse des points abordés en journées 1 et 2

Approfondissement des sujets sélectionnés avec l'intervenant

 

MISE EN PRATIQUE

Le dernier jour est entièrement consacré à des mises en pratique

 

SÉLECTION ET PARTICIPATION À UNE COMPÉTITION

Le formateur sélectionnera une compétition en cours sur Kaggle qui sera démarrée en jour 3 par l'ensemble des participants

Exposé (%)

50.00

Pratique (%)

40.00

Echanges (%)

10.00

Prochaines Sessions

  • 09/04/25 → 11/04/25
    OCTO Academy - PARIS -
  • 24/09/25 → 26/09/25
    OCTO Academy - PARIS -
  • 10/12/25 → 12/12/25 À distance
    Classe virtuelle

Dans la même catégorie

Retour Site