En 10 jours de formation, vous apprenez à concevoir et implémenter un pipeline de données distribué complet — du traitement Spark aux bases du déploiement Kubernetes, jusqu'aux fondamentaux du MLOps en production.
👥 Public : DevOps, Cloud Engineers, Développeurs
🎯 Objectifs : Comprendre l'architecture interne de Kubernetes, déterminer les services de la plateforme, déployer une application distribuée, comprendre et analyser une application déployée.
📚 Contenu :
| Jour | Contenu | \\
|---|---|
| Jour 1 (7h) | Introduction orchestration (CNCF, cas d'usage), Architecture Kubernetes (Master, Worker, API Server, etcd, Scheduler), Installation Minikube et configuration kubectl, TP1 : Déploiement NGINX | \\
| Jour 2 (7h) | ConfigMaps et Secrets, Persistent Volumes et PVC, Horizontal Pod Autoscaling (HPA), Ingress Controllers, Supervision (kubectl logs, Prometheus, Grafana, troubleshooting), TP2 : Stack microservices (Frontend + Backend + DB), Évaluation finale (QCM + TP) | \\
💻 Prérequis : Bases en virtualisation et réseaux, Docker, systèmes Linux, architectures distribuées.
🛠️ Outils : Kubernetes, Minikube, kubectl, Play with Kubernetes, Lens/K9s, Prometheus, Grafana.
✅ Évaluation : QCM final (30%) + TP complet (50%) + Participation (20%). Ressources : Support PDF, Manifests YAML, Cheat sheet kubectl et Documentation.
👥 Public : Data Engineers, Data Scientists avancés
🎯 Objectifs : Expliquer les principes de la programmation distribuée, prendre en main Apache Spark (PySpark), implémenter le traitement distribué des données, optimiser les performances des pipelines distribués.
📚 Contenu :
| Jour | Contenu | \\
|---|---|
| Jour 1 (7h) | Introduction traitement distribué (MapReduce, Hadoop, Spark), Architecture Spark (Driver, Executors, RDD, DAG), Installation et prise en main PySpark (Google Colab), TP1 : Traitement distribué sur dataset réel | \\
| Jour 2 (7h) | Spark SQL et Spark Streaming, Optimisation (partitionnement, cache, broadcast), Mini-projet : Pipeline ETL complet end-to-end, Introduction Apache Airflow (orchestration), Évaluation finale (QCM + Projet) | \\
💻 Prérequis : Python (Pandas, NumPy), SQL, bases du data processing.
🛠️ Outils : Python, Apache Spark (PySpark), Dask, Google Colab, Apache Airflow.
✅ Évaluation : QCM (20%) + Mini-projet pipeline (60%) + Participation (20%). Ressources : Support PDF complet, Jupyter Notebooks, Cheat sheet PySpark, Datasets, Code GitHub.
📊 Description : Apprentissage automatique : algorithmes supervisés et non supervisés, évaluation de modèles, cas pratiques.
🎯 Objectifs : Maîtriser les fondamentaux du Machine Learning, savoir choisir et évaluer des modèles, appliquer les algorithmes à des cas concrets, préparer les données pour l'entraînement.
🎯 Objectifs : Comprendre le cycle de vie complet d'un modèle ML en production, maîtriser les outils de versioning et tracking (MLflow, DVC), conteneuriser et déployer des modèles avec Docker et Kubernetes, mettre en place du monitoring et de la maintenance de modèles, implémenter CI/CD pour le ML.
📚 Programme :
| Jour | Contenu | \\ hilabihanJour 1 (7h) | Introduction au MLOps, Versioning de code, données et modèles (Git, DVC), Tracking d'expériences avec MLflow, Containerisation avec Docker, TP1 : Versioning et tracking d'un projet ML | \\ 全天Jour 2 (7h) | Déploiement de modèles (API REST avec FastAPI/Flask), Orchestration avec Kubernetes, CI/CD pour ML (GitHub Actions, Jenkins), Monitoring de modèles en production, TP2 : Déploiement end-to-end avec monitoring | \\
|---|
💻 Prérequis : Expérience en Machine Learning, Bases en Python et Git, Notions de Docker recommandées.
🛠️ Outils : Python, MLflow, DVC, Docker, Kubernetes, FastAPI, GitHub Actions.
✅ Évaluation : TP de déploiement complet (70%) + QCM (30%).