Guide du datajournalisme 1.0 BETA

Le datajournalisme en perspective

En août 2010, des collègues du Centre européen du journalisme et moi-même avons organisé à Amsterdam ce qui fut selon nous l’une des premières conférences internationales sur le datajournalisme. À cette époque, pas grand monde ne parlait du sujet et il n’existait qu’une poignée d’organisations connues pour leur travail dans ce domaine.

La manière dont certaines organisations médiatiques comme The Guardian ou The New York Times ont géré l’énorme quantité de données publiées par Wikileaks a largement contribué à démocratiser le terme datajournalisme, qui est alors rentré dans l’usage (avec « journalisme assisté par ordinateur ») pour décrire l’utilisation de données dans le but d’améliorer la couverture journalistique et d’enquêter en profondeur sur un sujet donné. En parlant à des datajournalistes et à des journalistes expérimentés sur Twitter, il semblerait que l’une des toutes premières formulations de ce que nous appelons maintenant datajournalisme ait été produite en 2006 par Adrian Holovaty, créateur d’EveryBlock, un service d’information permettant aux utilisateurs de savoir ce qu’il se passe dans leur quartier, leur « pâté de maisons ». Dans son court essai intitulé Un changement fondamental à apporter aux sites d’information, il enjoint les journalistes à publier des données structurées et lisibles par des machines pour accompagner le traditionnel « gros pavé de texte » :

Par exemple, supposons qu’un journal ait écrit un article sur un incendie local. Je peux lire cet article sur mon téléphone portable, hourra, vive la technologie ! Mais ce que je veux vraiment pouvoir faire, c’est explorer les faits bruts de cette histoire un par un, avec des couches d’attribution et une infrastructure permettant de comparer les détails de l’incendie avec ceux d’incendies précédents : date, heure, lieu, victimes, numéro de la caserne de pompiers, distance de la caserne, nom et nombre d’années d’expérience de chaque pompier présent sur les lieux, temps mis par les pompiers pour arriver sur place, et les incendies ultérieurs, le cas échéant.

Mais quelle est la différence avec d’autres formes de journalisme qui se servent de bases de données ou d’ordinateurs ? Comment, et dans quelle mesure le datajournalisme est-il différent d’autres formes de journalisme du passé ?

Journalisme assisté par ordinateur et journalisme de précision

Cela fait un certain temps que l’on utilise des données pour améliorer les reportages et fournir des informations structurées (si ce n’est interprétables par des machines) au public. La discipline qui se rapproche peut-être le plus directement de ce que nous appelons aujourd’hui datajournalisme est le journalisme assisté par ordinateur, ou JAO, qui fut la première approche organisée et systématique employant des ordinateurs pour recueillir et analyser des données dans le but d’améliorer l’information.

Le JAO fut utilisé pour la première fois en 1952 par CBS pour prédire les résultats de l’élection présidentielle américaine. Depuis les années 1960, des journalistes (principalement des journalistes d’investigation américains) ont cherché à assurer un contrôle indépendant du pouvoir en analysant des bases de données publiques à l’aide de méthodes scientifiques. Les promoteurs de ces techniques assistées par ordinateur, également connues sous le nom de « journalisme de service public », se sont attachés à rapporter les tendances, défaire les mythes populaires et révéler les injustices perpétrées par les autorités publiques et les entreprises privées. Par exemple, Philip Meyer a cherché à démystifier la lecture officielle des émeutes de 1967 à Detroit en démontrant que les manifestants n’étaient pas uniquement des migrants du Sud faiblement éduqués. Dans les années 1980, le dossier « The Color of Money » de Bill Dedman a révélé une discrimination raciale systémique en matière de crédit dans les plus grandes institutions financières. Dans son article « What Went Wrong », Steve Doig a cherché à analyser l’étendue des dégâts provoqués par l’ouragan Andrew au début des années 1990 pour comprendre l’impact des mauvaises pratiques et politiques en matière de développement urbain. Le journalisme axé sur des données s’est avéré être un service public précieux, et a rapporté des prix prestigieux à ses pratiquants.

Au début des années 1970, l’expression « journalisme de précision » a été inventée pour décrire cette méthode de collecte d’informations : « l’application de méthodes de recherche issues des sciences sociales et comportementales à la pratique du journalisme » (extrait du livre The New Precision Journalism de Philip Meyer). Le journalisme de précision était perçu comme étant pratiqué dans les institutions médiatiques dominantes par des professionnels formés au journalisme et aux sciences sociales. Il est né en réponse au « nouveau journalisme », une forme de journalisme qui appliquait des techniques de fiction au reportage. Meyer suggère que les techniques scientifiques de collecte et d’analyse de données sont préférables aux techniques littéraires pour aider le journalisme dans sa quête d’objectivité et de vérité.

Le journalisme de précision peut être vu comme une réaction aux insuffisances et aux faiblesses souvent prêtées au journalisme : dépendance aux communiqués de presse (plus tard qualifié de « churnalism », ou journalisme prémâché), influence des sources d’autorité, etc. D’après Meyer, ces problèmes résultent d’un manque d’application de techniques des sciences de l’information et de méthodes scientifiques telles que les sondages et les archives publiques. Le journalisme de précision, tel qu’il était pratiqué dans les années 1960, servait à représenter des groupes marginaux. D’après Meyer :

Le journalisme de précision était une façon d’élargir la boîte à outils du reporter pour lui permettre de couvrir des sujets auparavant inaccessibles, du moins dans leur forme brute. Il était particulièrement utile pour donner une voix aux minorités et aux groupes dissidents qui luttaient pour leur représentation.

Dans les années 1980, un article majeur portant sur la relation entre le journalisme et les sciences sociales fait écho au discours actuel sur le datajournalisme. Les auteurs, deux professeurs de journalisme américains, suggèrent qu’au cours des années 1970 et 1980, la conception publique de l’information a évolué d’une notion plus restreinte de journalisme « factuel » vers un journalisme « situationnel ». Par exemple, en utilisant des données de recensement ou des sondages, les journalistes peuvent « dépasser le spectre d’évènements spécifiques et isolés afin de fournir un contexte qui leur donne un sens ».

Data Journalism in _The Guardian_ in 1821
Datajournalisme dans le Guardian en 1821 (The Guardian)

Comme on peut l’imaginer, l’utilisation de données dans le but d’améliorer les reportages remonte aussi loin que les données existent. Comme le fait remarquer Simon Rogers, le premier exemple de datajournalisme au Guardian date de 1821. Il s’agit d’un listing « volé » dévoilant le nombre d’élèves et le coût de la scolarité dans chaque école de Manchester. D’après Rogers, il avait permis de déterminer le véritable nombre d’étudiants recevant une éducation gratuite, qui était sensiblement plus élevé que le nombre officiel. Parmi les premiers exemples de datajournalisme en Europe, on peut également citer Florence Nightingale et son fameux rapport intitulé « Mortality of the British Army », publié en 1858. Dans son rapport au Parlement, elle avait utilisé des graphiques pour plaider pour une amélioration des services de santé dans l’armée britannique. Le plus célèbre est sa « crête de coq », un diagramme circulaire en douze sections représentant chacune un nombre de morts par mois, qui mettait en évidence le fait que l’immense majorité des morts était imputable à des maladies évitables plutôt qu’à des balles ennemies.

Mortality of the British Army by Florence Nightingale
Mortalité dans l'armée britannique par Florence Nightingale (Image de Wikipedia)

Datajournalisme et journalisme assisté par ordinateur

À l’heure actuelle, il y a un débat sur l’évolution du terme « datajournalisme » et son lien avec de précédentes pratiques journalistiques employant des techniques informatiques pour analyser des bases de données.

Certains prétendent qu’il y a une différence entre le JAO et le datajournalisme. Selon eux, le JAO est une technique de collecte et d’analyse de données tendant à améliorer les reportages (généralement d’investigation), alors que le datajournalisme emploie des données dans tout le workflow journalistique. En ce sens, le datajournaliste prête autant – et parfois plus – d’attention aux données elles-mêmes, plutôt que de simplement les utiliser pour trouver ou enrichir des histoires. C’est ainsi que l’on voit le Datablog du Guardian ou The Texas Tribune publier des bases de données accompagnant leurs articles – voire des bases de données seules – pour que tout le monde puisse les explorer et les analyser.

Une autre différence, c’est qu’auparavant, les journalistes d’investigation souffraient du manque d’informations sur les sujets qu’ils voulaient traiter. Bien sûr, ce problème se pose toujours aujourd’hui, mais il y a également une surabondance d’informations dont les journalistes ne savent pas forcément que faire. Comme exemple récent, on pourrait citer le Combined Online Information System (COINS), la plus grosse base de données anglaise sur les dépenses publiques. Cette base de données était réclamée depuis longtemps par les organisations militant pour la transparence des comptes publics, mais elle a laissé de nombreux journalistes perplexes lors de sa publication.

D’un autre côté, certains disent qu’il y a aucune différence de taille entre le datajournalisme et le journalisme assisté par ordinateur. Il est maintenant couramment admis que même les pratiques médiatiques les plus récentes ont un héritage historique, ainsi qu’un certain degré de nouveauté. Plutôt que de chercher à savoir si le datajournalisme est une discipline complètement nouvelle ou non, il serait peut-être plus profitable de le considérer comme relevant d’une longue tradition, mais répondant à des circonstances et à des conditions nouvelles. Même s’il n’y a pas forcément de différence en termes d’objectifs et de techniques, l’émergence de l’étiquette « datajournalisme » au début du siècle dénote une nouvelle phase dans laquelle l’énorme volume de données en libre accès sur Internet – combiné avec des outils sophistiqués axés sur l’utilisateur, l’autopublication et le crowdsourcing – permet à de plus en plus de gens de travailler avec des données, plus facilement que jamais.

Le datajournalisme, c’est la démocratisation des données

Les technologies numériques et le Web sont en train de changer fondamentalement notre manière de publier des informations. Le datajournalisme n’est qu’une partie de l’écosystème d’outils et de pratiques qui s’est développé autour des sites et des services de données. La nature même de la structure en hyperliens du Web consiste à citer et partager les sources, et c’est ainsi que nous avons l’habitude de parcourir les informations aujourd’hui. Si l’on remonte encore plus loin, le principe fondateur de la structure du Web est issu du principe de citation utilisé dans les travaux universitaires. La citation et le partage des matériaux sources et des données de l’histoire est l’une des avancées principales du datajournalisme, ce que le fondateur de WikiLeaks Julian Assange qualifie de « journalisme scientifique ».

En permettant à tout-un-chacun de parcourir les sources des données et de trouver les informations qui l’intéressent, mais aussi de vérifier des assertions et de remettre en question des idées reçues, le datajournalisme représente de fait une démocratisation de masse des ressources, outils, techniques et méthodologies auparavant utilisés par des spécialistes, des journalistes d’investigation, des chercheurs en sciences sociales, des statisticiens, des analystes et autres experts. Si, aujourd’hui, la pratique consistant à citer et à donner le lien de ses sources de données est spécifique au datajournalisme, nous vivons dans un monde où les données sont intégrées de façon de plus en plus transparente au tissu des médias. Les datajournalistes ont un rôle important à jouer dans la démocratisation des données auprès du plus grand nombre.

Pour l’instant, la communauté naissante de personnes se réclamant du datajournalisme est distincte de la communauté du JAO, qui est plus mûre. Gageons qu’à l’avenir, nous verrons des liens plus étroits s’établir entre ces deux communautés, de la même façon que nous voyons de nouvelles ONG et des organisations médiatiques citoyennes comme ProPublica et le Bureau of Investigative Journalism travailler main dans la main avec des médias traditionnels pour enquêter sur certains sujets. La communauté du datajournalisme développe peut-être des approches plus innovantes dans sa manière de fournir des données et de présenter des histoires, mais l’approche profondément analytique et critique de la communauté du JAO a certainement des choses à lui apprendre.

Liliana Bounegru, Centre européen du journalisme