Guide du datajournalisme 1.0 BETA

Dans les coulisses du Guardian Datablog

Visualisation du processus de création au Datablog
Visualisation du processus de production au Datablog (The Guardian)

Quand nous avons lancé le Datablog, nous n’avions aucune idée de qui serait intéressé par des données brutes, des statistiques et des visualisations. Comme l’a formulé un ancien de la rédaction : « Qui pourrait bien vouloir de ça ? »

Le Guardian Datablog, dont je suis le rédacteur, devait être un petit blog offrant les bases de données complètes à la source de nos articles. Il comprend maintenant une page d’accueil, des outils de recherche pour explorer des données sur la gouvernance et le développement dans le monde, des visualisations de données réalisées par des graphistes du Guardian ou provenant du Web, ainsi que des outils pour parcourir des données sur les dépenses publiques. Chaque jour, nous partageons toutes nos données sur des feuilles de calcul Google ; nous visualisons et analysons ces données, puis nous les utilisons pour fournir des histoires au journal papier et au site web.

En tant que rédacteur de presse et journaliste travaillant avec des graphiques, c’était la suite logique de ce que je faisais déjà, à savoir accumuler et analyser de nouvelles banques de données pour interpréter les nouvelles de la journée.

La question qu’on se posait a trouvé sa réponse toute seule. Nous avons connu des années spectaculaires en matière de données publiques. Le premier acte législatif d’Obama a été d’ouvrir les bases de données du gouvernement américain, et son exemple a rapidement été suivi par d’autres pays : l’Australie, la Nouvelle-Zélande, ainsi que le Royaume-Uni avec le site Data.gov.uk.

Nous avons eu le scandale des notes de frais des députés, le scoop de datajournalisme le plus inattendu de Grande-Bretagne – qui oblige désormais Westminster à publier d’énormes quantités de données chaque année.

Nous avons eu des élections législatives où tous les principaux partis politiques étaient tenus à une transparence complète et ont dû ouvrir leurs bases de données au monde entier. Nous avons vu des journaux papier consacrer de précieuses colonnes à la publication de la base de données COINS du Trésor public.

Dans le même temps, alors que le Web produit de plus en plus de données, les lecteurs du monde entier sont plus intéressés par les faits bruts qu’ils ne l’ont jamais été. Quand nous avons lancé le Datablog, nous pensions attirer un public de développeurs concevant des applications. En fait, il s’agit de gens qui veulent en savoir plus sur les émissions de carbone, sur l’immigration d’Europe de l’Est, le décompte des morts en Afghanistan, ou même le nombre de fois où le mot « love » apparaît dans les chansons des Beatles (613). Petit à petit, le travail du Datablog s’est mis à refléter et à enrichir les histoires que nous rencontrions. Nous avons crowdsourcé 458 000 documents sur les dépenses des députés britanniques et nous avons analysé les données détaillées des demandes de remboursement de chaque député. Nous avons aidé nos utilisateurs à explorer les bases de données détaillées des dépenses du Trésor et nous avons publié toutes les données à la source de nos informations.

Mais au printemps 2010 s’est produit un évènement qui a changé la donne, avec la publication d’une feuille de calcul : 92 201 lignes de données, chacune contenant les détails d’un évènement militaire en Afghanistan. Il s’agissait des journaux de guerre de WikiLeaks. Ou plutôt, de la première partie. Deux autres épisodes allaient suivre : l’Irak et les télégrammes diplomatiques. Le terme officiel pour les deux premières parties était SIGACTS, pour Significant Actions Database (base de données des actions importantes de l’armée américaine).

Dans les organisations de presse, tout est question de géographie – et de proximité de la rédaction. Si vous êtes proche, il est facile de suggérer des histoires et de faire partie du processus ; à l’inverse, loin des yeux, loin du cœur. Avant WikiLeaks, nous étions placés à un étage différent, avec les graphistes. Depuis WikiLeaks, nous partageons le même espace que la rédaction. Il nous est donc plus facile de suggérer des idées à la rédaction, et pour les reporters de penser à nous quand ils ont besoin d’aide.

Il n’y a pas si longtemps encore, les journalistes étaient les gardiens des données officielles. Nous écrivions des histoires à partir des chiffres qui nous parvenaient et nous les révélions au public reconnaissant, qui ne s’intéressait pas aux statistiques brutes. L’idée de divulguer des informations brutes dans nos journaux était une abomination.

Cette dynamique a été complètement bouleversée. Nous sommes devenus des interprètes ; nous aidons les gens à comprendre les données, et nous les publions simplement parce qu’elles sont intéressantes en elles-mêmes.

Mais des chiffres sans analyse ne restent que des chiffres, et c’est là que nous entrons en jeu. Quand le Premier ministre britannique a déclaré que les émeutes d’août 2011 n’étaient pas liées à la pauvreté, nous avons établi une carte corrélant les adresses des émeutiers avec des indices de pauvreté pour déterminer le degré de vérité de cette affirmation.

Derrière toutes nos histoires de datajournalisme, il y a un processus. Il évolue en permanence car nous ne cessons d’utiliser de nouveaux outils et de nouvelles techniques. Certaines personnes pensent qu’il faut devenir une sorte de super hacker, écrire du code et manger du SQL au petit-déjeuner. Vous pouvez décider de suivre cette approche. Mais une grande partie de notre travail se fait simplement dans Excel.

Tout d’abord, nous localisons les données ou nous les obtenons auprès de diverses sources, que ce soit des dépêches, des données gouvernementales, des études journalistiques, etc. Puis, nous commençons à étudier ce qu’il est possible de faire avec ces données ; devonsnous les recouper avec une autre base de données ? Comment pouvons-nous illustrer leur évolution au fil du temps ? Ces feuilles de calcul doivent bien souvent être sérieusement nettoyées – toutes ces colonnes superflues et ces cellules bizarrement fusionnées ne sont pas d’une grande aide. Et c’est à supposer que ce ne soit pas un PDF, le pire format de l’humanité pour les données.

Souvent, les données officielles sont accompagnées de codes officiels ; chaque école, hôpital, circonscription et autorité locale possède un identifiant unique. Chaque pays en possède également un (le code de la France est FR, par exemple). Ces identifiants peuvent être utiles si vous commencez à mélanger plusieurs bases de données, car il existe un nombre incroyable de variations alphabétiques. Il y a la Birmanie et le Myanmar par exemple, ou bien le comté de Fayette aux États-Unis (il y en a 11). Les codes permettent de comparer ce qui est comparable.

Au bout de ce processus, il y a le produit : sera-ce une histoire, un graphique ou une visualisation, et quels outils allons-nous utiliser ? Nous employons principalement des outils gratuits qui nous permettent de produire quelque chose rapidement. Les graphiques plus sophistiqués sont produits par notre équipe de développement. Ainsi, nous utilisons couramment des Google Charts pour les graphiques les plus simples, ou Google Fusion Tables pour créer des cartes en toute facilité.

On pourrait croire que c’est novateur, mais ça ne l’est vraiment pas. Dans la toute première édition du Manchester Guardian (le samedi 5 mai 1821), les nouvelles étaient au verso, comme dans tous les journaux de l’époque. Le premier élément sur la couverture était un avis de recherche pour un labrador égaré. Au milieu des histoires et des extraits de poésie, un tiers de la quatrième de couverture était occupé par des faits : un tableau complet des frais de scolarité dans la région « encore jamais dévoilé au public », écrit « NH ».

NH voulait que ses données soient publiées pour ne pas les laisser rapporter par des gens d’église incompétents en la matière. Il exprimait sa motivation en ces termes : « De telles informations sont précieuses, car sans savoir dans quelle mesure l’éducation prévaut, les meilleures opinions pouvant être formées sur la condition et le progrès futur de la société seront nécessairement incorrectes. » En d’autres termes, si les gens ne savent pas ce qui se passe autour d’eux, comment la société pourrait-elle s’améliorer ?

Je ne peux pas trouver de meilleure raison à faire ce que nous essayons de faire. Des informations qui étaient autrefois rapportées en quatrième de couverture peuvent aujourd’hui paraître à la une.

Simon Rogers, The Guardian