Soumis par Charles Nepote le ven, 23/02/2018 - 11:30
Qualité des données : nous avons besoin de vous !
Le bilan contrasté de l'open data, tout comme celui des datasciences dans les organisations, a notamment pointé du doigt le problème de la qualité des données. Mais les travaux sur ce sujet sont plutôt rares et sans doute pas assez adaptés aux nouveaux modes de production et d'usages des données : données qui sortent de leurs silos vers de nouveaux publics, pluralité d'usages des données, arrivée de publics non-techniciens qui commencent à s'intéresser aux données, etc.
Ce document propose une liste exhaustive des problèmes de qualité de données rencontrés dans la réalité, ainsi que des suggestions pour les résoudre. Le document liste plus de 40 cas concrets et fréquemment observés. Cette initiative est collaborative et le document peut être amandé et complété sur la plateforme Github. Ce document est réutilisable sous licence Creative Commons BY-NC.
Ce projet vise à créer un mini-guide et/ou une méthodologie de découverte des problèmes de la qualité des données. Après une introduction sous forme de jeu des 20 erreurs, le projet présente les erreurs les plus communes, les moyens de les repérer et de les traiter.
Aujourd'hui ce document est encore à l'état de projet. N'hésitez pas à le commenter !
Le site transformy.io permet de transformer une liste de données très simplement, en entrant un exemple de ce que vous souhaitez obtenir.
En page d'accueil, des exemples vous montrent comment fonctionne l'outil. Ensuite, il vous suffit de copier/coller les lignes que vous souhaitez transformer et puis entrer un seul exemple du format que vous souhaitez obtenir. Le résultat apparaît comme par magie !
OpenRefine (ex-Google Refine) est un puissant outil pour travailler avec des données désordonnées, les nettoyer, les transformer depuis un format vers un autre, les enrichir avec des web services et les lier avec des bases de données comme Freebase.