Si R (ou d’autres puissants outils de data-science) restent indispensables pour des modélisations complexes ou des « pré-nettoyages » poussés, les flux purement web sont gages de productivité, d’interopérabilité et de démocratisation.
C’est dans cet esprit que Jeffrey Heer et ses collègues de l’université de Washington ont conçu Arquero, grammaire de manipulation de données et avant elle Vega(-Lite), grammaire de datavisualisation.
Tidyverse a clairement inspiré Arquero, Jeffrey Heer n’en fait pas mystère en présentant ce travail[2] à l’automne 2020.
Les familiers de R pourront considérer qu’Arquero aborde le champ couvert par dplyr et tidyr, tandis que Vega-Lite fonctionne sur les mêmes principes (grammaire graphique et variables visuelles) que ggplot2.
Il est vraiment facile de passer d’un univers à l’autre, selon ses besoins. Mieux encore, connaître les deux permet de mieux les comprendre chacun, par le jeu des subtiles résonnances et différences qu’ils entretiennent.
Last, but not least, Arquero sait déjà tirer parti d’Apache Arrow, qui s’annonce comme le modèle de « dataframe » du futur, standard commun aux outils phares de la data-science (R, Python/pandas, Julia, Spark…)