Mieux faire parler les données

Vendredi 1er octobre, Éric participait  à la Mêlée numérique 2021, à Toulouse. Son intervention se plaçait en amont d’une table ronde intitulée “Objectifs ou partisans, les graphiques remplacent-t-ils un bon discours ?“, organisée par l’association Toulouse Dataviz. C’était l’occasion pour lui de développer un thème qui lui tient particulièrement à cœur : comment mieux faire parler les données ?

Depuis le début de sa (longue) carrière de statisticien-économiste, Éric se passionne pour la mise en valeur des données. Déjà lorsqu’il était jeune chargé d’études à la direction régionale de l’Insee à Limoges et qu’il rédigeait des articles pour la revue régionale, il savait que la représentation des données était indissociable de l’écriture et de la mise en page, dans l’objectif de transmettre une information utile aux lecteurs. C’était l’époque de l’émergence de nouvelles technologies : la microinformatique, la publication assistée par ordinateur, la cartographie thématique automatisée.

La “dataviz” n’a pas été inventée au 21e siècle, loin de là. Elle s’appelait alors représentation graphique de données, ses origines remontent d’ailleurs encore bien plus loin dans le temps, à une époque où on écrivait encore à la main sur du papier. Elle n’est pas une fin en soi, elle participe à mettre à disposition du lecteur une information claire, tirée de données complexes.

Éric à la Mêlée numérique
Intervention du 01/10/21 à la Mêlée numérique

Pour son exposé, Éric s’appuie sur deux cas d’école qu’il tire de ses lectures consacrées au sujet de la “dataviz”. Ces deux exemples sont frappants peut-être parce qu’ils illustrent tous deux une catastrophe. Le premier montre comment l’emploi d’une représentation plus parlante aurait peut-être pu éviter la catastrophe en question. Le second montre comment une représentation visuelle aide à mieux comprendre a posteriori ce qu’il s’est précisément passé. 

L'explosion de la navette spatiale Challenger en 1986

La navette explose peu après son décollage, le 28 janvier 1986. Un joint d’assemblage d’un des boosters latéraux connait une rupture, ayant perdu de son élasticité à cause du froid régnant la nuit précédant le lancement.

La veille, des ingénieurs ont tenté en vain d’alerter leur hiérarchie des risques liés aux conditions météorologiques qui régnaient à ce moment. Mais le lancement avait déjà été reporté plusieurs fois, alors qu’il était attendu au plus haut sommet de la nation.

Graphique établi après la catastrophe par le concepteur des boosters

Les données relatives aux 24 lancements précédents signalaient des défauts constatés sur les joints toriques des réservoirs latéraux. Étaient connues aussi les températures mesurées lors de chaque lancement : aucune n’était aussi froide que le jour de l’explosion. 

La visualisation, présentée triée par date de lancement, ne permet pas de faire immédiatement le lien avec la température. Pour rappel, 32 °F correspondent à 0 °C.

Edward Tufte, statisticien américain et brillant “designer de l’information”, a analysé en détail les données disponibles sur cette catastrophe historique. Il les a complétées en distinguant différents degrés de gravité des incidents constatés. Il les a surtout triées par ordre de température croissante, plutôt que par date. Il propose in fine le diagramme suivant, sous forme de “scatter plot”, ou “nuage de points”.

Source : Edward Tufte – Visual explanations

Ce dernier met directement en évidence le caractère atypique des températures prévues et observées le 28 janvier 1986. Il montre aussi que la gravité des incidents croit en même temps que la température diminue. Il est aussi remarquable par son design épuré, éliminant toute représentation inutile pouvant parasiter le message à faire passer.

Cependant, pas sûr que si cette représentation avait été disponible le jour J, elle aurait suffi à infléchir le cours de l’histoire. D’autres enjeux étaient à l’œuvre face auxquels les mises en garde de quelques ingénieurs ne suffisaient pas. Certains en ont nourri un sentiment de culpabilité qui les a rongés tout le reste de leur vie. 

Un graphique d’excellence est celui qui donne au lecteur
le plus grand nombre d’informations dans le temps le plus court
dans l’espace le plus petit et avec le moins d’encre possible.

Edward Tufte – The Visual Display of
Quantitative Information (1983)

Le naufrage du Titanic en 1912

Le paquebot, à l’occasion de sa traversée inaugurale de l’Océan Atlantique, le 14 avril 1912, heurte un iceberg et fait naufrage. Sur les 2 223 passagers, 719 en réchapperont. Cette catastrophe unique dans l’histoire a servi de base et d’inspiration pour de multiples travaux et créations. Les causes de la catastrophe ont été également abondamment étudiées. Le jeu de données sur la répartition des passagers est un cas d’école qui a lui aussi fait l’objet de très nombreuses visualisations.

Toutes les représentations permettent de mettre en évidence l’application du principe les femmes et les enfants d’abord. Parmi la demi-douzaine qu’Éric a retenu pour son exposé, certaines sont plutôt des contre-exemples, assez peu lisibles. A contrario, en voici deux particulièrement exemplaires.

Source : G. Bron – The Sphere – 4 mai 1912

Les données sur le bilan du naufrage ont été publiées assez rapidement. Voici par exemple une illustration parue dans le magazine The Sphere en mai 1912, moins d’un mois après la catastrophe.

Cette composition étonnamment moderne présente une collection de petits graphiques, avec une mosaïque de rectangles de surface proportionnelle, annotée avec une typographie nette.

On observe que, sans usage de la couleur, une bonne utilisation de niveaux de gris est tout à fait parlante.

Cette représentation aurait pu disparaitre si Michael Friendly ne l’avait pas sortie de l’oubli en 2019. Cet universitaire américano-canadien est une figure éminente de la statistique et de la datavisualisation.

Cette représentation plus actuelle est encore plus éloquente. Avec elle, 6 enseignements sautent aux yeux sans grand effort :

  • très peu d’enfants étaient à bord,
  • une grande majorité de femmes furent sauvées,
  • la plupart des hommes n’ont pas survécu,
  • il y avait trois fois plus d’hommes que de femmes,
  • l’équipage représentait plus d’1/3 des personnes à bord,
  • les hommes en 2e classe avaient le moins de chance de s’en sortir.

Ce dernier point est plutôt contre-intuitif : on aurait pu s’attendre à ce que les hommes de 3e classe soient encore moins bien lotis que ceux de 2e. La vidéo ci-dessous en rappelle une des explications possibles…

Éric a bâti cette visualisation  à partir du modèle fourni par Bruce Gabrielle, dans son ouvrage Storytelling with graphs, en utilisant le jeu de données publié en open data par Robert Dawson.

Un graphique ne doit pas seulement
montrer les feuilles de l’arbre.

Il doit aussi montrer les branches et l’arbre tout entier.
L’œil peut alors aller du détail à l’ensemble
et découvrir à la fois la structure générale
et ses exceptions.

Jacques Bertin – Sémiologie graphique (1967)

Comment construire une dataviz expressive ?

Voici l’intervention live (30 mn) sur laquelle s’appuie cet article :

Voici sous forme de document pdf, l’ensemble de la présentation d’Éric à l’occasion de cette table ronde consacrée à la « dataviz ». 

En plus des deux exemples présentés plus haut, elle présente aussi quelques représentations graphiques réussies, ainsi que quelques « ducks », tels que les dénonce Edward Tufte, ces créations visuelles qui visent plus à exhiber une prouesse technique qu’à délivrer une information facilement compréhensible.

Elle donne enfin une liste d’ouvrages de références, qui devraient figurer dans la bibliothèque de qui s’intéresse de près à la datavisualisation, ainsi qu’une liste de liens documentaires en relation avec ce sujet.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.