mardi 25 juillet 2017

Une expérience de la data dans une rédaction

Comment une rédaction peut-elle utiliser des données numériques pour mener des enquêtes, apporter une valeur supplémentaire à des articles, raconter des histoires avec davantage de contraintes factuelles et en s'appuyant sur des méthodes quantitatives, bref faire son métier avec des outils d'aujourd'hui. Je pose ici la question à propos des moyens nécessaires, de l'organisation du travail et du partage des tâches. Mon passage de quelques mois dans la rédaction de The Conversation France (j'écrirai ici La Conversation) m'en a donné une expérience et je vous la livre ici. C'est mon point de vue et il n'engage en rien la rédaction.

Le site privé

Quelques lignes pour présenter La Conversation, un média original à bien des égards. Les auteurs sont des chercheurs affiliés à une université ou une institution de recherche (pas de think tank). Ils écrivent sous leur nom des articles, des textes d'analyse sur un débat, un thème en rapport avec leur domaine d'étude. Les journalistes de la rédaction sont des éditeurs, des secrétaires de rédaction si l'on veut, au service du travail des auteurs, pour le rendre accessible aux lecteurs sans le trahir. Les auteurs en approuvent la version finale. Les articles sont publiés en licence CC et un mécanisme de republication simple est proposé aux autres médias en ligne qui disposent ainsi d'une agence de presse en prise avec la recherche scientifique. L'audience de chaque article est mesurée sur le site https://www.theconversation.fr ainsi que sur les sites qui l'ont repris. Ces statistiques sont fournies à l'auteur et à son université.

Un modèle économique à n bandes


Les revenus ne proviennent pas de la revente de contenus ou de l'exploitation des données personnelles des lecteurs mais du soutien financier des institutions qui emploient les chercheurs-auteurs. Il faut avoir à l'esprit que les établissements d'enseignement supérieur sont en compétition pour attirer à eux des étudiants, des enseignants et des fonds. La présence de leurs chercheurs dans les débats qui intéressent la société, par médias interposés, leur apporte une visibilité utile à cet égard. Le modèle économique de La Conversation est donc une forme de médiation d'influence et de réputation.

Le projet Data, dans lequel j'ai été impliqué entre octobre 2016 et juin 2017, vise à offrir aux auteurs de La Conversation un autre moyen de faire connaître leurs recherches, au moyen de la présentation de certaines de leurs données, des data qu'ils utilisent ou produisent au cours de leurs travaux.

Il ne s'agissait pas a priori de produire des des infographies de données que l'on aurait collées dans des articles comme on le fait pour une illustration, bien qu'on ait pu procéder ainsi à l'occasion. On souhaitait prendre la donnée – si possible inédite – comme point de départ et travailler avec l'auteur sur sa représentation et son commentaire.

Le site public

Une équipe ad hoc


Si toute l'équipe a contribué au projet à des degrés divers, c'est à une équipe de trois personnes que la réalisation a été confiée, sans que le flux de production normal soit modifié. La réalisation comprenait la mise en place d'un hébergement pour les infographies, lesquelles ne pouvaient être accueillies dans le système de publication actuel (pas très data friendly, donc), la recherche des auteurs susceptibles d'apporter des données et la création des infographies elles-mêmes. Le plus dur a été de trouver les auteurs.

Dans l'organisation habituelle de la rédaction, les éditeurs ont un rôle clé pour trouver le bon auteur sur un sujet donné. Dans le projet, ils ont été mis à contribution pour trouver les auteurs susceptibles de fournir des jeux de données et les clés d'explication. Aurait-on pu leur demander de produire directement les infographies ? Cette voie directe, qui aurait fait de chaque journaliste de la rédaction un journaliste data, semblait difficile à prendre tant il restait de questions en suspens. Les chercheurs voudraient-ils partager leurs données, sachant que le fonctionnement de La Conversation implique une republication ? Sous quelle forme et dans quels formats ces données nous arriveraient ? Parviendrait-on à en faire quelque chose de lisible et de rigoureux à la fois ? Les plate-formes de création d'infographies pour le web sont-elles assez riches pour visualiser des jeux de données variés que produit la recherche ?

Probablement, seule une équipe dédiée pouvait explorer le terrain, valider les outils et montrer des choses dans le temps imparti par le financement limité dans le temps dont La Conversation disposait. Il avait été obtenu auprès du fonds Digital News Initiative (https://www.theguardian.com/technology/2015/apr/27/google-mistakes-news-outlets-announces-digital-partnership), abondé par Google et il fallait présenter des résultats au bout de quelques mois. On a donc déchargé les éditeurs de la quête des données (même s'ils ont contribué) et de la réalisation des infographies.

Dans mon idée, une étape de transmission devait suivre la phase d'exploration. Elle consisterait à former les éditeurs à la conception de sujets data et à intégrer dans le système de publication des outils de visualisation de données qui ne demandent pas de programmer, possiblement à partir du code de Datawrapper, qui est un logiciel libre et que l'on peut adapter à ses besoins.

Les éditeurs étaient intéressés – et même demandeurs – pour réaliser des sujets à partir de données ou de cartes. De part leurs domaines d'expertises (économie, santé, environnement, science, géopolitique), ils voyaient très bien l'intérêt de la chose. Pour une rédaction, le fait que plusieurs personnes sachent chercher des données et y trouver du sens me semble être l'objectif ultime d'une démarche de transformation avec le numérique. Ça n'exclut pas d'avoir en plus des personnes spécialement formées à la statistique et à l'infographie web et qui viendraient en appui. Pour atteindre ce niveau d'autonomie, il faudrait du temps, un budget relativement important pour former les équipes et développer des outils adaptés à des non-programmeurs, ce point est important.

Les voies de la data


Nous avons sollicité les chercheurs de trois manières. La première a consisté à produire des infographies à partir de données ouvertes et à trouver ensuite des spécialistes de la question qui accepteraient d'en prendre à leurs comptes. Commencer par la création d'infographies était aussi justifié par la nécessité de tester le nouveau site destiné à leur hébergement. Il a été plus difficile de trouver des auteurs pour les commenter, soit parce qu'on ne trouvait pas d'auteur sur le thème traité – il fallait que le contenu couvre exactement le domaine d'étude du chercheur et on a eu des refus pour ça – soit que l'auteur ne pouvait pas écrire pour La Conversation de part son statut (think tank, dans un cas). Dans ce type de démarche, le travail avec le chercheur a consisté à adapter l'infographie proposée.

La deuxième façon de faire supposait que l'auteur amène ses données et que nous réalisions les infographies. C'est ce qui s'est passé à plusieurs reprises. Les données étaient parfois accompagnées de graphiques simples produits dans un tableur ou de suggestions pour leur représentation. À charge pour nous de traiter les données et de produire du code ou des cartes. Les données étaient déjà élaborées suivant les hypothèses et les modèles de l'auteur. C'était donc des résultats de recherche et non des données brutes. Cependant, il a parfois fallu en laisser une partie ou faire des simplifications pour en faciliter la lecture.

La troisième voie a consisté à « mettre en page » des images réalisées par le chercheur. Ces images étaient issues d'un traitement numérique ou d'un travail cartographique destiné à l'imprimé. Notre rôle s'est borné à les rendre plus lisibles sur le web, avec des effets de transition commandés par des boutons, ou de zoom, programmés en JavaScript. C'est ainsi qu'on a procédé pour la série de cartes de Hervé Le Bras sur « La France inégale ».

Un outillage hétéroclite


Concernant les outils, nous avons employé Datawrapper pour les infographies simples et lorsque le jeu de données était peu important. Dans d'autres cas, c'est QGIS en frontal d'un serveur PostgreSQL / PostGIS qui a servi à générer des cartes au format PNG. Pour animer ces cartes, j'ai eu recours à un peu de JavaScript et la bibliothèque D3js pour faire des transitions. L'avantage par rapport à la génération de SVG à la volée dans le navigateur à partir de données, c'est que ça s'affiche vite sur une machine qui n'a pas loin de 10 ans. Enfin, pour les cas qui réclamaient un traitement spécial, on a adapté des bouts de code donnés en exemple par Mike Bostock, le créateur de D3js. C'est là où on se rend compte à quel point D3js est de « bas niveau », c'est à dire qu'elle propose uniquement des fonctions élémentaires et qu'il faut écrire beaucoup de code pour obtenir le moindre résultat ou adapter du code libre existant. Certes, elle donne toute liberté de création au codeur mais elle réclame aussi beaucoup d'effort.

Voyant la nécessité de ce bricolage, et même en faisant abstraction des contraintes spéciales de La Conversation, on pourrait douter que la data puisse devenir un truc réellement low cost dans un avenir prévisible. C'est en tous cas ce que je pensais au début. Pourtant, en voyant un peu plus loin, je me suis convaincu qu'il est possible d'autonomiser les journalistes intéressés à travailler sur des chiffres avec des outils du type Datawrapper. Ces derniers n'offrent à ce jour pas beaucoup de possibilités – pour notre projet Data, ils n'ont couvert qu'une partie des besoins. Mais au moins ils ne sont pas trop complexes et surtout je crois qu'ils vont progresser. L'aspect sur lequel j'attends le plus d'améliorations est la variété des types d'infographies. Datawrapper et les logiciels similaires pourraient bénéficier de bibliothèques de visualisations de données plus abordables que D3js

 
Utilisées directement, ces bibliothèques de haut niveau ouvriront la visualisation de données à des programmeurs dont le niveau sera inversement proportionnel et pourquoi pas à des journalistes un peu codeurs.

Si on peut attendre quelque chose de l'outillage technique, ça ne dispensera pas de travailler le côté humain de la chose, ce travail proprement journalistique de recueil, d'interrogation et de présentation des faits qu'il faudra pratiquer désormais avec des données. Dans le nécessaire conceptuel des journalistes, on cherchera des notions de statistiques, de mathématiques, de cartographie et de programmation. Mais ça, c'est une autre histoire.