La présente DP vise à acquérir et mettre en place un outil d’observabilité des données.
État actuel
À l’heure actuelle, EDC ne possède pas de plateforme d’observabilité des données. Les alertes Azure de base sont utilisées pour tout problème avec la filière, et des contrôles de validation manuels sont en place pour les ensembles de données. En cas d’erreur, il n’y a pas de résolution claire, car il est difficile d’analyser les problèmes en profondeur. Actuellement, les outils utilisés sont PowerBI pour la validation des données et la production de rapports ainsi que Databricks pour l’interrogation des tableaux. Tous les processus sont manuels, sans automatisation intégrée.
État futur
Pour l’observabilité des données, un outil global permettra la mise en place d’un processus fiable afin d’assurer l’intégrité des données et d’accroître la confiance des utilisateurs relative aux données.
Avec le bon outil, l’Équipe des données et les utilisateurs professionnels pourront effectuer manuellement les vérifications prévues sur les ensembles de données. L’équipe pourra créer des tableaux de bord faciles à lire et diffuser aisément des renseignements aux autres utilisateurs. De plus, l’outil aidera EDC à repérer les anomalies de données et à utiliser l’apprentissage machine pour améliorer le processus de validation des données.