Guide du datajournalisme 1.0 BETA

Présenter des données au public

Il existe de nombreuses manières différentes de présenter vos données au public. Vous pouvez publier des bases de données brutes avec vos articles, créer de magnifiques visualisations ou des applications web interactives. Nous avons demandé à des pionniers du datajournalisme quelques astuces pour présenter des données au public.

Visualiser ou ne pas visualiser ?

Parfois, les données racontent mieux l’histoire que des mots ou des photos, et c’est pourquoi des termes comme « application » et « visualisation de données » ont de plus en plus de succès dans les salles de rédaction. Cet intérêt est également nourri par l’abondance de nouveaux outils et technologies (souvent gratuits) conçus pour aider le journaliste même le moins technophile à transformer des données en éléments de storytelling visuel.

Des outils comme Google Fusion Tables, ManyEyes, Tableau, Dipity et bien d’autres permettent de créer facilement des cartes, des graphiques voire des applications complètes qui étaient auparavant du domaine du spécialiste. Mais maintenant que les barrières techniques ont été dissoutes, la question que se posent les journalistes n’est plus tant « est-il possible de créer une visualisation à partir de cette base de données » que « est-ce nécessaire » ? À de nombreux égards, mieux vaut pas de visualisation du tout qu’une mauvaise visualisation.

Aron Pilhofer, The New York Times

Parler au monde

Notre travail commence généralement dans Excel. C’est un outil particulièrement simple pour déterminer rapidement si les données contiennent quelque chose d’intéressant. Si nous avons l’impression que c’est le cas, alors nous en parlons à la rédaction. Au Guardian, nous avons la chance de nous trouver juste à côté de la salle de rédaction principale. Ensuite, nous déterminons quelle est la meilleure manière de les visualiser ou de les présenter sur la page principale, puis nous écrivons l’article qui les accompagne. Quand j’écris, j’ouvre généralement une version allégée de la feuille de calcul à côté du traitement de texte. Souvent, je fais quelques analyses complémentaires pendant que j’écris pour relever des choses intéressantes. Ensuite, je publie l’article et je passe un peu de temps à le promouvoir sur Twitter, à l’envoyer à diverses personnes et à m’assurer qu’il est référencé aux bons endroits.

Pour certains de nos articles, la moitié du trafic provient de Twitter et de Facebook. Par ailleurs, le temps moyen passé sur un article du Datablog est de six minutes, comparé à une moyenne d’une minute pour le reste du site du Guardian, ce dont nous ne sommes pas peu fiers. Six minutes est une moyenne honorable, et le temps passé sur la page est l’un des indicateurs-clés de nos analyses de trafic.

Ces statistiques, de même que les gros dossiers de datajournalisme sur lesquels nous avons travaillé et que tout le monde connaît dans la salle de rédaction (COINS, WikiLeaks et les émeutes britanniques), nous aident à convaincre nos collègues de l’importance de ce que nous faisons. Lors de la publication de la base de données COINS sur les dépenses publiques par le gouvernement britannique, une demi-douzaine de journalistes spécialisés du Guardian s’est attelée à analyser les données. Une autre équipe de cinq-six journalistes – comprenant des reporters éminents comme Polly Curtis – s’est ensuite chargée d’examiner les dépenses de plus de 25 000 £. L’affaire WikiLeaks a également eu un impact considérable, produisant de nombreux articles sur l’Irak et l’Afghanistan. Le dossier sur les émeutes a lui reçu plus de 550 000 visites en deux jours.

Mais ce qui compte, ce n’est pas seulement le nombre de visites à court terme : c’est d’être perçu comme une source d’informations fiables et utiles. C’est ce pour quoi nous travaillons au Guardian.

Simon Rogers, The Guardian

La publication des données

Généralement, nous publions nos données sur notre site sous la forme de visualisations, et également dans un format qui permet de télécharger facilement la base de données complète. Nos lecteurs peuvent explorer les données en interagissant avec la visualisation ou les télécharger pour s’en resservir à leur manière. Il est important, pour améliorer la transparence du Seattle Times, que nous fournissions à nos lecteurs les données dont nous tirons nos conclusions. Et qui s’en sert ? Nos critiques, bien sûr, mais aussi tous ceux qui s’intéressent à l’article et à ses ramifications. En publiant les données, nous bénéficions également des conseils de ces mêmes critiques et du reste de notre lectorat, qui peuvent nous signaler des indices qui nous ont échappés et des pistes à explorer – une aide précieuse si l’on souhaite pratiquer un journalisme qui a du sens.

Cheryl Phillips, The Seattle Times

Ouverture des données

Faciliter l’accès aux données que nous utilisons dans notre travail est la meilleure chose à faire pour plusieurs raisons. Nos lecteurs peuvent s’assurer que nous ne torturons pas les données pour en tirer des conclusions erronées. Ouvrir ses données, c’est perpétuer la tradition des sciences sociales qui consiste à permettre à d’autres chercheurs de répliquer son travail. En encourageant nos lecteurs à étudier eux-mêmes les données, ceux-ci peuvent nous donner des pistes pour d’autres articles. Enfin, un lecteur impliqué qui s’intéresse à nos données est un lecteur qui revient.

Steve Doig, Walter Cronkite School of Journalism, Arizona State University

Démarrer une plate-forme open data

À La Nación, publier des données ouvertes fait partie intégrante de nos activités datajournalistiques. En Argentine, il n’y a ni droit d’accès à l’information, ni portail de données national, alors nous tenons à offrir à nos lecteurs un accès aux données que nous utilisons dans notre travail.

C’est pourquoi nous publions des données brutes structurées par le biais de notre plateforme intégrée Junar ainsi que dans des feuilles de calcul Google. Nous autorisons et encourageons explicitement nos lecteurs à réutiliser nos données, et nous fournissons de la documentation et des tutoriels vidéo à cet effet.

Par ailleurs, nous présentons certaines de ces bases de données et de ces visualisations sur le datablog de La Nación. Nous faisons cela dans le but de démocratiser les données et les outils de publication en Argentine, de montrer comment nous collectons nos données, comment nous les utilisons et comment les gens peuvent les réutiliser à leur tour. Depuis que nous avons ouvert la plate-forme en février 2012, nous avons reçu des suggestions et des idées de bases de données, essentiellement de la part d’universitaires et de chercheurs, mais aussi d’étudiants qui étaient toujours très reconnaissants d’obtenir une solution ou une base de données spécifique en retour. Les gens commentent et interagissent également avec nos données sur Tableau, et nous comptons plusieurs projets parmi les plus commentés et visités du service. En 2011, sept de nos visualisations se sont classées parmi les 100 les plus visionnées du site.

Angélica Peralta Ramos, La Nación (Argentine)

Rendre les données humaines

Les gens sont de plus en plus conscients de l’importance des données, mais une part importante leur échappe encore – l’élément humain. Beaucoup d’entre nous voient les données comme des chiffres dissociés et abstraits et oublient qu’elles sont en fait des mesures de choses tangibles (et bien souvent humaines). Les données sont ancrées dans la vraie vie de vraies personnes, alors quand on s’y intéresse, il faut songer au monde bien réel dont elles proviennent.

Prenons par exemple les données de géolocalisation qui sont collectées en ce moment même sur des centaines de millions de téléphones et autres appareils mobiles. On peut considérer ces données (des chiffres représentant la latitude, la longitude et l’heure) comme du « gaz d’échappement numérique », mais elles sont en fait de véritables extraits de nos vies personnelles. Elles peuvent paraître froides et cliniques sur une feuille de calcul, mais quand on permet aux gens de placer leurs propres données sur une carte et de lire leur itinéraire, ils revivent une sorte de souvenir puissant et très humain. Aujourd’hui, les données de localisation sont utilisées par de nombreuses entreprises tierces – des développeurs d’applications, des grandes marques et des annonceurs. Les intermédiaires (les entreprises de télécommunications et les gestionnaires d’appareils) détiennent et conservent également ces données, mais le principal concerné – vous – n’a aucune possibilité d’y accéder. Au service de R&D du New York Times, nous avons lancé un prototype appelé OpenPaths pour permettre au public d’explorer ses propres données de localisation et de mieux comprendre le concept de propriété des données. Après tout, les gens devraient pouvoir contrôler ces chiffres qui sont si intimement liés à leur propre vie. Le journaliste a un rôle essentiel à jouer, celui d’exprimer l’humanité intrinsèque des données. Il a ainsi le pouvoir de faire évoluer la compréhension du public concernant à la fois les données et les systèmes dont elles proviennent.

Jer Thorp, infographiste résident : groupe R&D duNew York Times

Open data, open source, open news

2012 a marqué l’essor de l’open news. Ce concept est au cœur de notre idéologie éditoriale et de notre stratégie de marque actuelle. Aujourd’hui, il est clair que nous avons besoin d’un processus de datajournalisme ouvert. Ce processus doit être alimenté par des données ouvertes, mais également par des outils ouverts. D’ici la fin de l’année, nous espérons être capables d’offrir un accès aux données et au code source de toutes nos visualisations. De nombreux outils utilisés aujourd’hui pour la visualisation de données sont des logiciels propriétaires. D’autres s’accompagnent de licences qui restreignent l’utilisation des données dérivées. Les librairies open source qui existent permettent souvent de résoudre un problème particulier mais ne parviennent pas à couvrir une méthodologie plus large. Avec tout cela, il est difficile de partager son travail et de reprendre celui des autres. C’est pour cette raison que nous développons un kit d’outils de storytelling interactif open source – le projet Miso (@themisoproject).

Nous collaborons avec d’autres organisations médiatiques sur ce projet. Pour que des logiciels open source révèlent tout leur potentiel, il est nécessaire d’impliquer la communauté. Si nous y parvenons, nous pourrons établir une dynamique fondamentalement différente avec nos lecteurs. Ils ne se contenteront alors plus de commenter notre travail mais pourront le reproduire, corriger nos erreurs ou réutiliser nos données de manière inattendue.

Alastair Dant, The Guardian

Ajouter un lien de téléchargement

Ces dernières années, j’ai eu entre les mains plusieurs gigaoctets de données pour des projets ou des articles, allant de scans de tableaux tapés à la machine des années 1960 aux 1,5 gigas de télégrammes diplomatiques publiés par WikiLeaks. J’ai toujours eu du mal à convaincre les éditeurs de publier systématiquement les données sources dans un format ouvert et accessible. Pour contourner le problème, j’ai pris l’habitude d’ajouter des liens de téléchargement direct dans mes articles, redirigeant vers les archives qui contiennent les fichiers ou les documents Google correspondants. Le nombre de « réutilisateurs » potentiels concorde avec ce que l’on constate dans les programmes gouvernementaux (ils sont très, très peu). Cependant, les quelques cas de réutilisation nous ont apporté de nouvelles informations ou ont démarré des conversations qui valaient largement quelques minutes de travail en plus par projet !

Nicolas Kayser-Bril, Journalism++

Connaissez vos limites

Il y a une grande différence entre hacker pour le fun et programmer à grande échelle pour des performances optimales. Assurez-vous de vous associer à des gens qui ont les compétences nécessaires pour votre projet. N’oubliez pas le design. L’ergonomie, l’expérience utilisateur et la présentation peuvent avoir un énorme impact sur la réussite de votre projet.

Chrys Wu, Hacks/Hackers