OpenRefine/Version imprimable
Une version à jour et éditable de ce livre est disponible sur Wikilivres,
une bibliothèque de livres pédagogiques, à l'URL :
https://fr.wikibooks.org/wiki/OpenRefine
Introduction
modifierun livre appartenant à l'étagère Informatique de Wikilivres.
OpenRefine est un logiciel libre de nettoyage et de mise en forme de données. Il est similaire dans son apparence à un tableur mais fonctionne en fait comme une base de données.
Ce wikilivre sur le logiciel libre OpenRefine souhaite réunir l'ensemble des informations en français sur l'utilisation de ce dernier.
Il existe déjà sur Internet beaucoup de tutoriels et de marches à suivre sur OpenRefine, ce wikilivre n'a pas pour but d'en créer des nouveaux mais plutôt de répertorier ceux-ci et parfois d'en donner des résumés qui en rappelle les points essentiels.
En effet, une grande partie des informations proviennent des excellents sites et notes sur le sujet de Maïwenn Bourdic [1] et Mathieu Saby [2], ainsi que des si précieux tutoriels video réalisés par Ettore Rizza [3].
Les informations devront permettre à tous les publics, des personnes débutantes à celles expertes, d'y trouver des informations.
Sommaire
modifierHistorique de ce wikilivre
modifierLe projet a été initié par 2le2im-bdc en novembre 2019 mais le projet souhaite être mené de façon collective.
Liste des contributrices et contributeurs souhaitant être identifié.e.s : 2le2im-bdc, VIGNERON, à compléter.
Références
modifier- ↑ Maïwenn Bourdic, « OpenRefine, "Excel aux hormones" pour nettoyage de données" », sur https://www.patrimoine-et-numerique.fr, (consulté le 2 décembre 2019).
- ↑ Mathieu Saby, « Nettoyer, préparer et transformer des données avec Openrefine : des premiers pas aux usages avancés », (consulté le 7 mai 2020).
- ↑ Ettore Rizza, « Tutoriels video sur OpenRefine », sur https://www.youtube.com (consulté le 2 décembre 2019).
Import des données
modifierImport de données
modifierLa première étape de tout projet est d'importer les données sur lesquels on veut travailler. OpenRefine accepte un grand nombre de formats de données différents : TSV, CSV, *SV, Excel (.xls et .xlsx), JSON, XML, RDF en tant XML. OpenRefine dispose de plusieurs façons de fournir ces formats, à partir d'un fichier local, d'une adresse Internet (URL), par simple copier-coller, en se connectant à une base de données (PostgreSQL, MySQL ou MariaDB) ou d'un tableur Google.
Format XML
modifierSelon Maïwenn Bourdic : "Il est possible d'importer un fichier XML qu'OpenRefine va transformer en tableau (en gros, une balise = une colonne). Dans le fichier XML à importer, enlever d'abord tout ce qui concerne la zone de déclaration. Pour un fichier XML-EAD par exemple, il est possible d'alléger le contenu du <archdesc> et ne garder que le contenu du <dsc> (en conservant quand même un fichier xml valide avec toutes les balises bien fermées)" [1].
Références
modifier- ↑ Maïwenn Bourdic, « OpenRefine, "Excel aux hormones" pour nettoyage de données" », sur https://www.patrimoine-et-numerique.fr, (consulté le 2 décembre 2019).
Nettoyage des données
modifierUne fois l'analyse des données effectuées, on peut se lancer dans le nettoyage de celles-ci.
Il existe au moins deux manières principales de nettoyer des données : travailler individuellement sur chacune de celles-ci ou de faire des modifications en masse. OpenRefine permet les deux mais évidemment son principal avantage réside dans les transformations de masse.
Modifications individuelles
modifierChaque cellule du tableur affiché dans OpenRefine peut être modifiée individuellement. Cela est aussi possible sur les facettes elles-mêmes.
Ligne
modifierAjouter une ligne dans OpenRefine c'est possible.
- Choisir la colonne dans laquelle se trouve l'information à répartir sur deux lignes;
- Puis "Éditer les cellules"->"Diviser les cellules multivariées"
- Définir le type de séparateur qui opérera la séparation.
Journal des actions
modifierOpenRefine offre dans la zone de gauche de l'interface de traitement des données un journal des actions et transformations opérées. Cela permet de revenir en tout temps en arrière, y compris jusqu'à la première action.
Ce journal des actions peut aussi être exporté (via "Extraire") afin de pouvoir être rejoué (via "Appliquer") tel quel sur un nouveau ensemble de données. Cette fonctionnalité est très pratique si on travaille sur plusieurs fichiers similaires ou sur plusieurs versions d'un même fichier (par exemple fichier mis à jour régulièrement).
Modifications en masse
modifierGroupe
modifierÀ partir d'une liste de termes obtenus par la demande d'une facette, ou simplement en choisissant Éditer les cellules->Grouper et éditer, OpenRefine offre une proportion de regroupement des valeurs par similitude. À partir de cette visualisation, il est possible de procéder à des fusions de termes sous une même valeur. Voir à ce sujet la vidéo n°1 d'introduction de 2011.
Chaînes de caractères
modifierIl existe de nombreuses fonctions GREL pour manipuler les chaînes de caractères :
- pour les découper (
trim(c) strip(c) chomp(c1, c2) substring(c, 0, 10) split(c1, c2)
), - pour changer la casse (
toLowercase(c) toUppercase(c) toTitlecase(c)
), - pour calculer ou compter la chaîne (
length(c) contains(c1, c2)
), - etc.
Dates
modifierTyper une colonne en date
modifierTransformer le format d'une colonne en date (de type aaaa-mm-jjT00:00:00Z, soit jusqu'à l'heure !) permet d'utiliser la facette chronologique, et donc la jauge temporelle.
Pour ce faire : Clic sur la colonne -> Éditer les cellules -> Transformations courantes -> En date.
Un conseil : dupliquer la colonne date pour faire la manipulation sur un double...
Source : le blog de Maïwenn Bourdic[1].
Changer le type de date
modifierClic sur la colonne -> Éditer les cellules -> Transformer -> la commande GREL :
value.toDate('yyyy-MM-dd','MMM-yy').toString('dd-MM-yyyy')
Source : le blog de Maïwenn Bourdic[2].
GREL
modifierGREL est un acronyme qui signifie General Refine Expression Language.
Voir la documentation officielle et aussi le mémo de Mathieu Saby[3]
La base
modifier- Les formules GREL ne commence pas par un signe = contrairement à celles des tableurs habituels.
- La formule n'est pas stockée dans la cellule. C'est le résultat qui l'est.
- value appelle la valeur de la colonne d'où est partie la requête.
- cells['nom de la colonne'] ou cells.nom_colonne permet d'appeler n'importe quel valeur sur une autre colonne.
- les transformations peuvent être enchaînées par un point.
- les transformations peuvent encapsulées par des parenthèses (seule possibilité pour les transformations conditionnelles).
Tiré en partie du mémo de Mathieu Saby[3],
Transformations primaires
modifierComme le dit Mathieu Saby dans son mémo[3], Les formules GREL permette de réaliser les opérations simples comme :
- concaténer des valeurs : "a"+"b"->ab
- calculer sur les nombres grâce aux opérateurs + - / *: 1+2->3
- comparer grâce aux opérateur : ==,!==,<,>,=>,<=
Transformations directes
modifierMathieu Saby distingue[3] les formules GREL de fonction et celles de contrôle, nous les avons distingué ici entre celles de transformations directes et celles de transformations conditionnelles, recoupant plus ou moins la même distinction.
premier modèle
modifierLe premier modèle s'écrit fonction(paramètres)[3].
- forEach(value.split("-"), v, v.toTitlecase()).join("-") pour appliquer une majuscule sur les initiales à un nom composé, par exemple : nadine-josette[4].
- value.substring(0,1) qui signifie reprendre la valeur depuis la première lettre (position 0) en enlevant celles depuis la seconde lettre (position 1).
- value.substring(31) : on enlève les 31 premiers signes.
- value + " " + cells["nom de la colonne"].value[5] permet de concaténer les valeurs de deux colonnes dans une troisième.
- cells["nom de la colonne"].value (exemple : value+" "+cells["Person_1 1"].value)
second modèle
modifierLe second modèle s'écrit Paramètre1.fonction(Paramètre2)[3].
- value.log()[6].
- value.parseJson().responseData.language[7].
- value.replace("quelque chose","par quelque chose d'autre")[6]>.
- value.replace(value,"par quelque chose d'autre") permet de créer une nouvelle colonne en fonction d'une existante avec une valeur nouvelle.
value.replace(/\n/, " | ")
remplace (via REGEX) les retours à la ligne par un pipe (à vérifier).
- value.substring(2) qui signifie reprendre tous les caractères moins ceux ayant les deux premières positions[8].
- value.toDate('yyyy-MM-dd','MMM-yy').toString('dd-MM-yyyy') pour changer le type de date[2].
Transformations conditionnelles
modifier- if(cells["titre d'une autre colonne"].value, value + "un texte", value) qui nécessite que l'autre colonne dispose de valeur de requête vrai ou faux. Si c'est le cas alors on peut utiliser if (si) le valeur est vraie alors ajoute au texte existant un texte, sinon on laisse la valeur telle quelle[8].
- if(isBlank(cells["colonne 1"].value), " - ", cells["colonne 1"].value) + " - " + if(isBlank(cells["colonne 2"].value), " - ", cells["colonne 2"].value) + " - " + if(isBlank(cells["colonne 3"].value), " - ", cells["colonne 3"].value) + " - " + if(isBlank(cells["colonne 4"].value), " - ", cells["colonne 4"].value) pour concatener le contenu de 4 colonnes dont certaines ne disposent pas de valeur[9].
- "film de "+if(isBlank(cells["Réal1"].value), " ", cells["Réal1"].value) + if(isBlank(cells["Réal2"].value), "", ", "+cells["Réal2"].value) + if(isBlank(cells["Réal3"].value), "", ", "+cells["Réal3"].value)+ if(isBlank(cells["Réal4"].value), "", ", "+cells["Réal4"].value)+ if(isBlank(cells["Réal5"].value), "", ", "+cells["Réal5"].value)+ if(isBlank(cells["Réal6"].value), "", ", "+cells["Réal6"].value)+ if(isBlank(cells["Réal7"].value), "", ", "+cells["Réal7"].value)
- not(value.startsWith("quelque chose"))[8].
- with(value.parseJson()[0],pair, pair.lat + ',' + pair.lon)[7].
- filter
- forEach
- forEachIndex
- forRange
- IsBlank
- IsNonBlank
- IsNull
- IsNotNull
- IsNumeric
- IsError
- forNonBlank
Références
modifier- ↑ Maïwenn Bourdic, « Typer une colonne en date », sur https://www.patrimoine-et-numerique.fr, (consulté le 6 décembre 2019).
- ↑ 2,0 et 2,1 Maïwenn Bourdic, « Changer le type de date », sur https://www.patrimoine-et-numerique.fr, (consulté le 7 décembre 2019).
- ↑ 3,0 3,1 3,2 3,3 3,4 et 3,5 Mathieu Saby, « Programmer dans Openrefine avec GREL », sur https://fr.slideshare.net, (consulté le 11 février 2020).
- ↑ Merci à Ettore Rizza de nous avoir fourni l'expression.
- ↑ (en) Illionois University Library, « Combining Cell Values », sur https://guides.library.illinois.edu/openrefine, (consulté le 28 janvier 2020).
- ↑ 6,0 et 6,1 Voir video 1 de 2011
- ↑ 7,0 et 7,1 Voir video 3 de 2011
- ↑ 8,0 8,1 et 8,2 Voir video 2 de 2011
- ↑ Maïwenn Bourdic, « Concatener », (consulté le 28 janvier 2020).
Réconciliation et enrichissement
modifierAvec Wikidata
modifierRéconciliation / Enrichissement
modifier- Voir la documentation en ligne sur Wikidata.
- Voir la procédure proposée par Mathieu Saby [1].
- Voir la procédure proposée par Maiwenn Bourdic [2].
Pour ajouter un service de réconciliation, voir la documentation officielle. En introduisant l'URL https://wdreconcile.toolforge.org/en/api il est possible en modifiant l'acronyme avant /api de choisir la langue que l'on souhaite[3]. Visiblement, il semble plus performant d'utiliser le lien suivant:https://wikidata.reconci.link/en/api
[4].
Importer dans OpenRefine des valeurs depuis Wikidata
modifierIl est possible d'ajouter des colonnes avec des valeurs importées depuis l'entitée Wikidata réconciliées dans les données travaillées dans OpenRefine.
En particulier, il est possible d'importer des label Wikdata (ou des descriptions, etc..) en choississant la langue.
Pour ce faire :
- "Editer la colonne"->"Ajouter des colonnes à partir de valeurs réconciliées".
- voir la documentation [1]
Création de nouveaux éléments Wikidata à partir de Openrefine
modifierAttention : lorsque vous souhaitez créer des éléments totalement nouveaux dans Wikidata à partir de Openrefine, il faut faire attention aux points suivants [5] :
- Si vous lancez une réconciliation sur une colonne comportant que des éléments nouveaux en suivant la procédure Réconcilier->Action>"Créer un nouveau sujet pour chaque cellule". Cette action fonctionne et affiche 100% d'élément nouveaux. Mais lorsque l'on souhaite éditer le schéma en vue de leur import dans Wikidata, on n'arrive pas à sélectionner cette colonne pour en-tête d'élément (le premier champs à spécifier). Elle est inactive au sens de Wikidata.
- Le problème vient du fait que Openrefine ne sait pas avec quel service externe on veut les réconcilier et Wikidata ne les reconnaît dès lors pas.
- Pour contourner, ce problème, on peut faire deux choses:
- soit lancer une réconciliation"classique" tout d'abord en sélectionnant Wikidata, puis dans un second temps lancer l'action "Créer un nouveau sujet pour chaque cellule".
- soit choisir Réconcilier->"Utiliser les valeurs comme identifiants", en choisissant Wikidata.
- Dans les deux cas, Wikidata sera identifié et la colonne "valide" pour sa sélection dans le schéma.
- Il existe un ticket de développement d'Openrefine qui documente cette difficulté.
Via Quickstatements
modifierOpenrefine propose d'exporter le schéma de réconciliation dans un format (.txt) lisible par Quickstatements. Voir d:Wikidata:Tools/OpenRefine/Editing/Uploading#Uploading_with_QuickStatementsdocumentation en ligne.
Cette démarche a les avantages suivants :
- Elle permet de relire l'entièreté des données avant l'import;
- Elle permet suivi détaillé de l'avancée des imports au contraire d'Openrefine.
Voir aussi
modifier- la documentation sur les pages d'aide de Wikidata.
- Gautier Poupeau, « Aligner vos données avec Wikidata grâce à l'outil Open Refine », sur https://medium.com, (consulté le 4 décembre 2019).
- Antoine Courtin, « “Réconcilier” une liste de nom d’architectes avec Wikidata en utilisant OpenRefine », sur https://www.slideshare.net, (consulté le 7 décembre 2019).
- https://wikidata.reconci.link/#documentation
Avec un CSV
modifierDans ce cas nous allons réconcilier en vue d'une normalisation nos données dans le projet Openrefine ouvert et des données externes dont nous disposons sous forme de fichier .csv.
Nous allons effectuer pour cela un fuzzy matching. La manœuvre va nous permettre de réconcilier des données dont l'orthographe est plus ou moins proche et de récupérer le cas échéant leurs identifiants externes. Pour tout autre enrichissement, il faudra se tourner dans un second temps vers d'autres procédures.
La plupart des informations pour réaliser cela ont été tirées du tutoriel video sur ce sujet réalisé par Ettore Rizza sur le sujet [6].
Réconciliation
modifier- Lancer Openrefine;
- Créer un projet OpenRefine à partir de nos données A de base;
- Créer un dossier de travail sur notre ordinateur;
- Créer un fichier .csv avec nos données B avec lesquelles on veut réconcilier les données A. Le fichier doit dispose de deux colonnes, l'une avec un identifiant unique (ex.1, 2, 3 etc.) et une seconde avec les valeurs que l'on souhaite réconcilier. Enregistrer ce fichier dans le dossier de travail;
- Télécharger le plugin d'OpenRefine permettant le fuzzy matching [7] qui est sous la forme d'une archive JAVA;
- Enregistrer ce plugin dans le dossier;
- Activer le plugin au travers d'une invite de commande, à partir du dossier dans lequel l'archive JAVA a été déposée, au moyen de la commande suivante (sans les crochets) :
java -jar [nom de l'archive] [le nom de fichier de référence] [Nom de la colonne qui servira au matching] [Nom de la colonne où se trouve l'identifiant unique]
- Retourner au projet OpenRefine avec nos données A. Choisir la colonne que nous voulons réconcilier, dans l'en-tête de colonne choisir au moyen du petit triangle : Reconcilier->Démarrer la réconciliation->Ajouter un service standard puis indiquer l'adresse URL préciser sur la page du plugin (http://localhost:8000/reconcile)->Add Service->Start Reconciling;
- Le matching s'est effectué;
- Dans le cas de doute, le service propose des différents choix, nous devons alors effectuer un choix à la main de façon sérielle ou unique.
Enrichissement
modifierVia l'application java permettant le fuzzy matching, on ne peut récupérer que l'identifiant de la valeur réconciliée. Voici comment procéder :
- Dans le projet OpenRefine avec nos données A à présent réconciliées avec les données B du fichier .csv, il faut choisir la colonne réconciliée, dans l'en-tête de colonne choisir au moyen du petit triangle : "Éditer la colonne"->"Ajouter une colonne en fonction de cette colonne" puis:
- Donner un "Nouveau nom de colonne";
- Introduire une expression GREL
cell.recon.match.id
.
Avec une API
modifierRéconciliation
modifierEnrichissement
modifierVoir la procédure proposée par Mathieu Saby [8].
Enrichissement par jointure
modifierLorsque l'on dispose de données avec une clé de concordance absolument identique, il est alors possible de faire une jointure entre deux projets OpenRefine afin d'enrichir un projet par les données de l'autre.
La plupart des informations pour réaliser cela ont été tirées du tutoriel video sur ce sujet réalisé par Ettore Rizza sur le sujet [9].
Selon Ettore Rizza, il existerait au moins deux manière de faire une jointure dans OpenRefine, soit par un plugin soit par une commande GREL.
GREL
modifier- Il faut ouvrir le projet A et le projet B dans OpenRefine;
- Dans le projet OpenRefine avec nos données A, il faut choisir la colonne qui servira de pivot entre les deux projets, dans l'en-tête de cette colonne choisir au moyen du petit triangle : "Éditer la colonne"->"Ajouter une colonne en fonction de cette colonne" puis dans l'interface qui s'ouvre alors:
- Donner un "Nouveau nom de colonne";
- Introduire cette expression GREL :
cell.cross("titre du projet B", "titre de la colonne pivot dans le projet B").cells["titre dans le projet B de la colonne contenant les données à rapatrier dans le projet A"].value[0]
. - Appuyer sur ok.
Plugin
modifierVoir aussi
modifierMaïwenn Bourdic, « Enrichir à partir d'un autre projet openrefine », sur https://www.patrimoine-et-numerique.fr, (consulté le 7 décembre 2019).
Références
modifier- ↑ Mathieu Saby, « Réconcilier des données avec Wikidata », sur Nettoyer et préparer des données avec OpenRefine : atelier pour les journées du consortium MASA, 14 novembre 2018 (mise à jour le 19 novembre 2019) (consulté le 4 décembre 2019).
- ↑ Maïwenn Bourdic, « Enrichir depuis Wikidata », sur https://www.patrimoine-et-numerique.fr, (consulté le 7 décembre 2019).
- ↑ (en) « Reconciliation », sur OpenRefine : Documentation For Users, (consulté le 13 août 2020).
- ↑ (en) « New OpenRefine reconciliation service », sur Wikidata, (consulté le 18 septembre 2020).
- ↑ Je remercie Pintoch de m'avoir indiqué ces solutions et ces informations.
- ↑ Ettore Rizza, « Tuto Open refine : le fuzzy matching », sur https://www.youtube.com, (consulté le 2 décembre 2019).
- ↑ Reconcile-csv : http://okfnlabs.org/reconcile-csv/#download
- ↑ Mathieu Saby, « Enrichissement de données à partir d’API », sur Nettoyer et préparer des données avec OpenRefine : atelier pour les journées du consortium MASA, 14 novembre 2018 (mise à jour le 19 novembre 2019) (consulté le 4 décembre 2019).
- ↑ Ettore Rizza, « Tuto Open Refine : jointure entre deux projets (VLOOKUP) », sur https://www.youtube.com, (consulté le 2 décembre 2019).
Export des données
modifierLa fonction d'export se trouve en haut à droit de l'interface de traitement.
Il existe de nombreux format d'export depuis OpenRefine. On peut utiliser les modèles déjà implémenter ou en établir un à travers de l'outil de modélisation.
Modèles en place
modifierModélisation
modifierVoir un exemple dans la video 2 de 2011.
Voir aussi
modifierLa documentation officielle
modifier- (en) « OpenRefine », sur https://github.com (consulté le 17 août 2020).
Publications
modifierBillet de blog
modifier- Maïwenn Bourdic, « OpenRefine, "Excel aux hormones" pour nettoyage de données" », sur https://www.patrimoine-et-numerique.fr, (consulté le 2 décembre 2019).
Site internet
modifier- Mathieu Saby, « Nettoyer et préparer des données avec OpenRefine : atelier pour les journées du consortium MASA », 14 novembre 2018 (mise à jour le 19 novembre 2019) (consulté le 2 décembre 2019).
- (en) « RefinePro Knowledge Base for OpenRefine » (consulté le 27 janvier 2020)
- (en) Illionois University Library, « OpenRefine », sur https://guides.library.illinois.edu, (consulté le 28 janvier 2020).
Diaporama
modifier- Mathieu Saby, « Nettoyer et préparer des données avec OpenRefine : formation URFRIST PACA », sur https://fr.slideshare.net, (consulté le 11 février 2020).
Licence de documentation libre GNU
modifierRésumé
modifierLa licence de documentation libre GNU (GNU Free Documentation License) est une licence produite par la Free Software Foundation. Cette licence a pour but de permettre la diffusion de contenu libre.
L'objet de cette Licence est de rendre tout manuel, livre ou autre document écrit « libre » au sens de la liberté d'utilisation, à savoir : assurer à chacun la liberté effective de le copier ou de le redistribuer, avec ou sans modifications, commercialement ou non.
Attention, contenu libre ne veut pas dire domaine public. Les différents créateurs de documents sous licence GFDL restent propriétaire de leurs écrits ou de leurs images. La licence GNU requiert que les auteurs gardent le crédit de leurs contributions. Pour cette raison, toute utilisation de document sous licence GFDL doit mentionner la source de ce contenu (par exemple, soit en créditant l'organisation d'où origine le document ou encore le document directement).
- en français (traduction non officielle, version 1.1): http://cesarx.free.fr/gfdlf.html
- version officielle en anglais: http://www.gnu.org/copyleft/fdl.html
Texte intégral
modifier[[:OpenRefine/Version imprimable/Texte intégral]]