Ce document propose une liste exhaustive des problèmes de qualité de données rencontrés dans la réalité, ainsi que des suggestions pour les résoudre. Le document liste plus de 40 cas concrets et fréquemment observés. Cette initiative est collaborative et le document peut être amandé et complété sur la plateforme Github. Ce document est réutilisable sous licence Creative Commons BY-NC.
Ce projet vise à créer un mini-guide et/ou une méthodologie de découverte des problèmes de la qualité des données. Après une introduction sous forme de jeu des 20 erreurs, le projet présente les erreurs les plus communes, les moyens de les repérer et de les traiter.
Aujourd'hui ce document est encore à l'état de projet. N'hésitez pas à le commenter !
Ce document représente un parcours guidé qui me permet (1) de déterminer et (2) d’évaluer ou (3) produire les données numériques que je vais pouvoir utiliser pour réaliser mon projet.