PROJET AUTOBLOG


Shaarli - Les discussions de Shaarli

Archivé

Site original : Shaarli - Les discussions de Shaarli du 23/07/2013

⇐ retour index

Nettoyer et organiser des données en vrac - Korben

mardi 25 novembre 2014 à 20:29
sam7'Shaarli 25/11/2014
Il m'est arrivé à plusieurs reprises de devoir nettoyer des données, les organiser, et rendre tout ceci un peu moins bordélique et surtout intégrable dans des bases pour être utilisée par un moteur de recherche. En général, ça se passe à grand coup de rechercher / remplacer, d'expressions régulières et parfois de macro ou de code.

Bref, c'est chiant.

Puis ce matin, je découvre un projet open source sous licence BSD et initié par Google en 2011 qui s'appelle OpenRefine et dont le but est justement de permettre à tout un chacun de faire ce genre de nettoyage beaucoup plus rapidement.

Pour résumer, OpenRefine est un "structurateur de données en bordel". J'ai regardé les vidéos d'explication et j'ai trouvé ça vraiment sympa. Pour ceux qui se demandent si Google récupère les données, rassurez-vous... L'outil se lance sur votre ordinateur et fonctionne uniquement en local (Windows, OSX, Linux).

Liens de WebManiaK 28/11/2014
Tiens, voilà une jolie découverte de Korben: OpenRefine est un logiciel qui ressemble vachement à un ETL (Extract-Transform-Load) sauf qu'il se limite à l'extraction et la transformation. Cela permet de retoucher rapidement des données dans un piteux état, comme par exemple un fichier CSV exporté dont les valeurs ne sont pas toujours formatées de la même manière.
Ils ont même incorporé un éditeur d'expressions pour transformer rapidement des valeurs en utilisant des fonctions. ça à l'air rudement bien fait (c'est fait par Google mais visiblement ne fonctionne qu'en local, ouf !)

Sur Github: https://github.com/OpenRefine/OpenRefine
(Permalink)

Le bazar du petit panda roux. 30/11/2014
Sous le coude!
(Permalink)