
Parquet devrait remplacer le format CSV
Parquet est un format ouvert de stockage de jeux de données. Créé en 2013 par Cloudera et Twitter, longtemps réservé aux pros du big data,
Dans cette rubrique, sont classés les billets du blog dont l’objet est en relation avec l’open data. Cela concerne toute base de données mises à disposition par ses producteurs selon une licence ouverte, c’est-à-dire garantissant leur libre accès, sans restriction technique, juridique ou financière. Les producteurs sont des organismes publics ou privés, qui rendent leurs données accessibles de façon régulière, structurée et documentée, dans le but de faciliter leur réutilisation par d’autres. Les administrations et les collectivités sont les principaux producteurs de données ouvertes.
Pour les statisticiens, l’ouverture des données offre des opportunités inédites pour créer de nouveaux outils qui permettent de mieux décrire et mieux comprendre le monde dans lequel nous vivons. L’interopérabilité, c’est-à-dire la possibilité que ces données et ces outils soient connectés entre eux, propose des perspectives nouvelles et stimule la créativité.
Parquet est un format ouvert de stockage de jeux de données. Créé en 2013 par Cloudera et Twitter, longtemps réservé aux pros du big data,
On ne sait pas toujours à l’avance ce que l’on va trouver dans un fichier CSV, pouvoir s’en faire un aperçu, quelle que soit sa
Cet étonnant outil libre de l’Université d’Auckland répondra à nombre de vos besoins de manipulation de fichiers CSV et, bien au-delà, d’analyse statistique exploratoire –
Pour manipuler rapidement des fichiers CSV, quelle que soit leur taille, quelques outils simples vous mettront définitivement à l’aise. J’en utilise deux en complémentarité :
Dans le contexte actuel de crise sanitaire, la Direction de la recherche, des études, de l’évaluation et des statistiques (DREES) publie désormais (décembre 2020) chaque mois un
Baptiste Coulmont a récemment produit cette superbe animation sur la distribution mensuelle des mariages en France, dont on peut voir la déformation au fil d’une
Ce n’est pas tous les jours que l’on peut jouer avec de solides données open data sur l’open data. Grâce aux efforts parallèles de Loïc
Cet article évoque un nouveau modèle, celui de l’open data-flow : des flux de données, de traitements et d’enseignements qu’un lecteur saisit pour créer à
Édit 1er février 2022 : la version 2022 de ce fond est disponible. Je mets à disposition sur data.gouv.fr un fond de carte France par