Guide du datajournalisme 1.0 BETA

Guide de référence rapide

datacatalogs.org
Datacatalogs.org (Open Knowledge Foundation)

Vous cherchez des données sur un sujet particulier ? Vous ne savez pas où les trouver, ni même si elles existent ? Dans cette section, nous allons apprendre à trouver des sources de données publiques sur le Web.

Rationaliser sa recherche

Bien qu’elles ne soient pas toujours faciles à trouver, de nombreuses bases de données sont indexées par les moteurs de recherche, que ce soit voulu ou non par l’éditeur. Voici quelques astuces.

  • Quand vous cherchez des données, assurez-vous d’inclure à la fois des termes de recherche correspondant au contenu des données que vous cherchez et des informations sur le format ou la source dans lesquels vous vous attendez à les trouver. Google et d’autres moteurs de recherche permettent la recherche par type de fichier. Par exemple, vous pouvez chercher uniquement des feuilles de calcul (en ajoutant les termes « filetype:xls filetype:csv » à votre recherche), des géodonnées (« filetype:shp ») ou des extraits de base de données (« filetype:mdb, filetype:sql, filetype:db »). Si vous y êtes disposé, vous pouvez également regarder les PDF (« filetype:pdf »).

  • Vous pouvez également filtrer vos recherches par URL. En entrant les termes « inurl:downloads filetype:xls », vous obtiendrez tous les fichiers Excel qui contiennent « downloads » dans leur adresse web (si vous trouvez un seul fichier, cela vaut souvent la peine de vérifier le reste du dossier). Vous pouvez également limiter votre recherche aux résultats d’un nom de domaine, en saisissant par exemple « site:*.gouv.fr ».

  • Un autre truc couramment utilisé consiste à ne pas chercher directement du contenu, mais plutôt les emplacements susceptibles de contenir de gros volumes de données. Par exemple, en tapant « site:agence.gouv.fr Directory Listing », vous trouverez peut-être des listings générés par le serveur avec un accès direct aux fichiers bruts, alors que la requête « site:agence.gouv.fr Base de données » recherchera les listings créés intentionnellement.

Explorer des sites et des services de données

Au cours des dernières années, de nombreux portails et plates-formes dédiés aux données sont apparus sur le Web. Ce sont de bons endroits pour se familiariser avec les différents types de données qui existent. Pour commencer, jetez un œil aux sites suivants.

Portails de données officiels

La propension d’un gouvernement à ouvrir ses bases de données varie d’un pays à l’autre. De plus en plus de pays lancent des portails de données (inspirés des sites data. gov des États-Unis et data.gov.uk du Royaume-Uni) pour inciter à la réutilisation civique et commerciale d’informations gouvernementales. On peut retrouver un index mondial de ces sites régulièrement mis à jour à l’adresse http://datacatalogs.org/. Un autre site pratique est le Guardian World Government Data, un métamoteur qui inclut de nombreux catalogues de données gouvernementaux.

The Data Hub

Une communauté gérée par l’Open Knowledge Foundation qui permet de trouver, partager et réutiliser facilement des sources de données, tout particulièrement de manière automatisée.

ScraperWiki

Un outil en ligne conçu pour « faciliter l’extraction de données utiles afin qu’elles puissent être réutilisées dans d’autres applications et analysées par des journalistes et des chercheurs ». La plupart des scrapers et leurs bases de données sont publics et peuvent être réutilisés.

Portails de données de la Banque mondiale et des Nations unies

Ces services fournissent des indicateurs fondamentaux pour tous les pays, remontant souvent sur de nombreuses années.

Infochimps, DataMarket, Datapublica

Des start-ups émergentes qui cherchent à développer des communautés autour du partage et de la revente de données1.

DataCouch

Un site pour stocker, affiner, partager et visualiser vos données.

Freebase

Une filiale de Google intéressante qui offre une vaste base de données d’entités nommées collaborative, gratuite et libre de droits (en anglais toutefois).

Données de recherche

Il existe de nombreux agrégateurs de données de recherche nationaux et disciplinaires, comme l’UK Data Archive. En France, l’Institut de l’information scientifique et technique (Inist) propose les bases de données PASCAL et FRANCIS. Bien que de nombreuses données soient libres d’accès, beaucoup requièrent également un abonnement, ou ne peuvent pas être réutilisées ni redistribuées sans permission.

Demander sur un forum

Cherchez parmi les réponses existantes ou posez votre question sur Get The Data ou Quora. Get The Data est un site de questions/réponses où vous pouvez poser toutes vos questions en matière de données, notamment où trouver des données sur un sujet particulier, comment interroger ou rapatrier une source de données, quels outils utiliser pour explorer visuellement une base de données, comment nettoyer des données ou les convertir dans un format exploitable.

Demander sur une liste de diffusion

Les listes de diffusion conjuguent la sagesse de toute une communauté sur un sujet particulier. Pour les datajournalistes, les listes Data Driven Journalism List et NICAR-L sont d’excellents points de départ. Ces deux listes sont pleines de geeks du datajournalisme et du journalisme assisté par ordinateur (JAO) qui travaillent sur toutes sortes de projets. Il y a des chances pour que quelqu’un ait déjà raconté une histoire comme la vôtre et puisse vous donner une piste, sinon un lien direct vers les données que vous cherchez. Vous pouvez également essayer le Projet Wombat (« Une liste de discussion pour des questions de référence difficiles »), l’une des nombreuses listes de diffusion de l’Open Knowledge Foundation, les listes de diffusion de theInfo, ou encore chercher des listes dans votre région sur le sujet qui vous intéresse.

Rejoindre Hacks/Hackers

Hacks/Hackers est une organisation de journalisme internationale en pleine expansion avec des douzaines de sections locales et des milliers de membres sur quatre continents. Sa mission consiste à former un réseau de journalistes (« hacks ») et de technologues (« hackers ») pour repenser le futur de l’information. Dans un réseau aussi vaste, vous aurez de fortes chances de rencontrer quelqu’un qui sait où trouver ce que vous cherchez.

Demander à un expert

Les professeurs, les fonctionnaires et les gens du secteur concerné savent souvent où chercher. Appelez-les, envoyez-leur un mail. Abordez-les lors d’un évènement. Pointezvous à leur bureau. Demandez gentiment. « Je fais un reportage sur X. Savez-vous où je peux trouver telle chose ? Savez-vous qui détient telle autre chose ? »

Se renseigner sur les méthodes gouvernementales

Il peut être utile de comprendre le contexte technique et administratif dans lequel les gouvernements conservent leurs informations quand vous essayez d’accéder à des données. Qu’il s’agisse de CORDIS, de COINS ou de THOMAS, ces bases de données sont plus utiles quand on comprend un peu leur objectif.

Trouvez des organigrammes gouvernementaux et cherchez les services transversaux (reporting, informatique…), puis parcourez leurs sites web. Beaucoup de données sont conservées par plusieurs services, et si une base de données particulière est jalousement gardée par l’un, l’autre vous la donnera peut-être gratuitement.

Prêtez attention aux infographiques dynamiques sur les sites gouvernementaux. Ils exploitent bien souvent des sources de données/API qui peuvent être utilisées indépendamment (comme les applets de météo).

Recommencer sa recherche

Quand vous voulez en savoir plus sur un sujet que vous étudiez, recommencez vos recherches en utilisant des phrases et des mots improbables qui vous sont venus à l’esprit depuis la dernière fois. Vous aurez peut-être un peu plus de chance cette fois-ci !

Déposer une demande d’accès à l’information

Si vous pensez qu’un organe gouvernemental détient les données que vous recherchez, une demande d’accès à l’information peut être votre meilleure arme. Lisez la section suivante pour plus d’informations sur la liberté d’accès aux documents administratifs.

Brian Boyer (The Chicago Tribune), John Keefe (WNYC), Friedrich Lindenberg (Open Knowledge Foundation), Jane Park (Creative Commons), Chrys Wu (Hacks/Hackers)