Chère communauté,
Si vous moissonnez des jeux de données issues de plusieurs sources, vous avez probablement été confrontés à la nécessité de dédoublonner votre catalogue.
Si ce dernier contient quelques jeux de données, vous le faîtes à la main et perdez du temps mais vous l’acceptez.
Si votre catalogue est bien garni, au mieux, vous faîtes ce que vous pouvez pour présenter un catalogue propre à vos utilisateurs, au pire (et je vous comprends tellement), la charge de travail est tellement élevée et en comité de pilotage, il est décidé que le plus sage est d’attendre les retours de vos utilisateurs pour faire un dédoublonnage au cas par cas. Ce n’est pas satisfaisant et vous le ressentez tellement mais que faire pour dédoublonner votre catalogue sans escalader El Capitan à chaque rejeu de vos moissonneurs?
Comme vous, j’ai été confronté à cette problématique et, Python étant mon ami, j’ai développé un petit logiciel (https://github.com/FCL-DataIA/Cat.DeDupeX) très simple à utiliser et qui me permet de présenter un catalogue propre à moindre effort.
Il est utilisable en l’état et peut facilement être adapté à votre besoin spécifique.
J’espère que que cet outil vous sera utile.