Programmer en R/Importer des données depuis un tableur


Pour importer des données depuis un tableur Excel, on peut utiliser la librairie readxl développée par Hadley Wickham.

Import des données depuis un tableur ExcelModifier

Nous proposons un exemple à partir des données de la liste des fondations reconnues d'utilité publiques diffusée par le ministère de l'Intérieur sur la plateforme Data.Gouv[1].

On peut tout d'abord faire la liste des feuilles (ou onglets) du tableur excel avec la fonction excel_sheets() :

library(readxl)
excel_sheets(path = "data/frup1606.xlsx")

On peut ensuite importer la première feuille avec la fonction read_excel(). La fonction glimpse(), issue de la librairie dplyr, permet d'avoir un aperçu des données.

> read_excel(
+   path = "data/frup1606.xlsx", 
+   sheet = "FRUP1306"
+   ) %>% 
+   glimpse()
Observations: 65,534
Variables: 13
$ Code                   (chr) "01.020.0015", "02.020.0011", "02.020.0157", "03.020.0005", "03.020.0...
$ Code (terminaison)     (dbl) 15, 11, 157, 5, 142, 504, 384, 26, 13, 114, 147, 178, 245, 267, 287, ...
$ Nom                    (chr) "PIERRE VEROTS", "ORPHELINS DE BLERANCOURT", "SAVART", "MAISON SAINT ...
$ Début du nom           (chr) "FONDATION", "HOSPICE D'", "FONDATION", NA, "FONDATION", "FONDATION",...
$ Objet                  (chr) "Mener en France une politique d'information, de gestion, de conserva...
$ Date de reconnaissance (chr) "30846", "22/10/1666", "25/01/1895", "12/02/1883", "11903", "38330", ...
$ Dernière modif statuts (time) NA, 1958-04-12, NA, 1972-04-28, NA, NA, NA, 2008-01-29, 2016-04-15, ...
$ Catégorie              (chr) "24000 environnement", "18000 services medico-sociaux", "18000 servic...
$ Adresse                (chr) "SIEGE", "SIEGE", "SIEGE", "SIEGE", "SIEGE", "SIEGE", "SIEGE", "SIEGE...
$ Adresse.Adr1           (chr) "Domaine de PRAILLEBARD", "2, rue Bernard Potier", "Rue du Chamiteau"...
$ Adresse.Adr2           (chr) NA, NA, "BP 6", NA, NA, NA, NA, NA, NA, NA, "4, avenue Pauliani", NA,...
$ Code Postal            (dbl) 1390, 2300, 2830, 3600, 3200, 3200, 4100, 5107, 6200, 6000, 6046, 600...
$ Ville                  (chr) "SAINT-JEAN-DE-THURIGNEUX", "BLERANCOURT", "SAINT-MICHEL", "COMMENTRY...

On peut aussi enregistrer les données dans un objet pour les réutiliser par la suite :

df_frup <- read_excel(
  path = "data/frup1606.xlsx", 
  sheet = "FRUP1306"
  )

Notes et référencesModifier

  1. http://www.data.gouv.fr/fr/datasets/frup-30-juin-2016/

Voir aussiModifier