Pratique pour l'examen | Ingénierie des données Azure DP-203

Préparez-vous à l'examen Microsoft Azure DP-203 : Ingénierie des données sur Microsoft Azure

4.59 (16 reviews)

Udemy

platform

Français

language

IT Certification

Why take this course?

La transformation et le dépannage des données dans Azure implique plusieurs étapes et composants. Voici une démarche structurée qui couvre les points clés de la transformation, du traitement par lots et en temps réel, ainsi que de la sécurité, de la surveillance et de l'optimisation de ces opérations :

Transformation des données avec Azure Stream Analytics (5-10%)

Collecter les données : Utilisez Azure Event Hubs pour collecter les données en temps réel.
Nettoyer les données : Assurez-vous que les données sont propres et valides avant de les traiter.
Gérer les données en double : Utilisez Azure Stream Analytics pour gérer les données en double grâce à la fonction "Exactly Once" (parfaitement une seule fois).
Gérer les données manquantes et tardives : Configurez des politiques pour gérer ces situations.
Transformer les données : Utilisez Stream Analytics pour définir des requêtes et des fonctions Transform (UDF) pour transformer les données en temps réel.
Dépanner les transformation : Diagnostiquez et résolvez les problèmes liés aux requêtes ou aux fonctions UDF.

Traitement par lots avec Azure Databricks (10-20%)

Collecter les données : Importez les données collectées dans Event Hubs vers Azure Data Lake Storage ou Blob Storage.
Nettoyer et préparer les données : Utilisez Databricks pour nettoyer, explorer et préparer les données à l'aide de notebooks Dataproches.
Exécuter des scripts de transformation : Écrivez et exécutez des scripts en Spark (Scala, Python, R) pour transformer les données.
Gérer les données sensibles : Utilisez des fonctions sécurisées pour manipuler les données sensibles.
Dépanner les scripts et les pipelines : Diagnostiquez et corrigez les erreurs dans les scripts ou les pipelines de traitement par lots.

Sécurité des données (10-15%)

Masquer les données : Utilisez Azure Data Lake Storage Gen2 pour appliquer des masques de fichier/répertoire.
Chiffrage : Chiffrez les données au repos et en mouvement avec Azure Key Vault.
Contrôle d’accès en fonction du rôle (RBAC) : Configurez des rôles et des politiques de gestion des accès pour contrôler l'accès aux ressources.
Listes de contrôle d'accès POSIX : Appliquez les permissions sur les données stockées dans Data Lake Storage Gen2.
Politique de conservation des données : Mettez en place des directives pour la conservation et l'expiration des données.
Gérer les informations sensibles : Assurez-vous que les données sensibles sont correctement protégées à chaque étape du traitement.

Surveillance et optimisation (20-35%)

Implémenter la journalisation : Activez Azure Monitor pour enregistrer les métriques et les journaux des ressources.
Surveiller le traitement du flux et des pipelines : Utilisez Azure Monitor, Application Insights et d'autres outils de surveillance.
Mesurer les performances : Analysez les métriques pour optimiser les requêtes, les tâches Spark et les pipelines de données.
Stratégie d’alerte pipeline : Configurez des alertes basées sur les métriques importantes ou les anomalies détectées.
Compacter les petits fichiers : Utilisez Azure Data Lake Storage pour compacter les données et optimiser le stockage.
Optimisation de la gestion des ressources : Ajustez les unités de calcul, les pools de stockage et d'autres ressources pour une utilisation efficace.
Dépanner les tâches Spark et les pipelines : Diagnostiquez les échecs ou les performances inadéquates et apportez des ajustements correctifs.
Interpréter les métriques et les journaux Azure Monitor : Utilisez ces informations pour comprendre le comportement et améliorer l'efficacité des systèmes de données.

Déploiement et maintenance (continuous)

Dépanner une tâche Spark ayant échoué : Diagnostiquez les causes d'échec, correctes ou améliorez le code.
Dépanner une exécution de pipeline ayant échoué : Analysez les journaux pour identifier et résoudre les problèmes.
Mise à jour et maintenance des pipelines : Assurez-vous que les pipelines restent actuels, efficaces et sécurisés.
Automatisation du déploiement : Utilisez des outils comme Azure DevOps ou GitHub Actions pour automatiser le déploiement de code et de configurations.
Monitoring continu : Maintenez une veille régulière sur les performances et la sécurité des systèmes.

En suivant ces étapes, vous pouvez gérer efficacement le cycle de vie complet des données, de la collecte en temps réel à la mise en œuvre de pipelines de traitement par lots, tout en maintenant un haut niveau de sécurité et de surveillance.