Une enquête de neuf mois sur les fonds structurels européens
En 2010, The Financial Times et le Bureau of Investigative Journalism (BIJ) ont uni leurs efforts pour enquêter sur les fonds structurels européens. Leur intention était de vérifier qui étaient les bénéficiaires de ces fonds et si l’argent était utilisé à bon escient. Totalisant 347 milliards d’euros sur sept ans, les fonds structurels sont le deuxième plus gros programme de subventions de l’Union européenne. Ce programme existe depuis des décennies, mais à part quelques rapports généraux, il y avait peu de transparence autour des bénéficiaires de ces fonds. Dans le cadre d’un changement des règles du cycle de financement, les autorités sont obligées de publier une liste de bénéficiaires, comprenant la description du projet et le montant des subventions européennes et nationales reçues. L’équipe chargée du projet se composait de 12 journalistes et d’un programmeur à plein temps, qui ont collaboré pendant neuf mois. Rien que la collecte des données a pris plusieurs mois.
Le projet a donné lieu à cinq jours de couverture dans The Financial Times et le BIJ, un documentaire radio à la BBC et plusieurs documentaires TV.
Avant de vous attaquer à un projet demandant de tels efforts, vous devez être certain que vos découvertes sont originales et que vous trouverez des histoires exclusives.
Le processus a été divisé en plusieurs étapes distinctes.
1. Identifier qui détient les données et comment elles sont conservées
La Direction générale de la politique régionale de la Commission européenne offre un portail vers les sites web des autorités régionales qui publient les données. Nous pensions que la Commission disposait d’une base de données globale à laquelle nous pourrions accéder soit directement, soit par le biais d’une demande d’accès à l’information, mais il n’existait aucune base de données aussi détaillée que nous le souhaitions. Nous nous sommes vite rendu compte que nombre des liens que fournissait la Commission ne marchaient plus et que la plupart des autorités publiaient les données au format PDF, plutôt que dans des formats se prêtant à l’analyse comme le CSV ou le XML.
Une équipe comprenant jusqu’à 12 personnes s’est attachée à identifier les données les plus récentes et à rassembler tous les liens dans une même feuille de calcul. Comme les champs de données n’étaient pas uniformes (par exemple, les titres étaient dans des langues différentes, certaines bases de données utilisaient des devises différentes, et certaines incluaient le détail des financements européens et nationaux), nous devions traduire et décrire les champs disponibles dans chaque base de données de manière aussi précise que possible.
2. Télécharger et préparer les données
L’étape suivante consistait à télécharger toutes les feuilles de calcul, les PDF, et parfois à extraire les données originales de pages web.
Chaque base de données devait ensuite être standardisée. Notre tâche principale consistait à extraire les données de chaque PDF, certains comptant plusieurs centaines de pages. Le gros du travail a été fait à l’aide d’UnPDF et d’ABBYY FineReader, qui permettent d’extraire des données vers des formats comme CSV ou Excel. Nous devions également vérifier si les outils d’extraction avaient correctement capturé les données des PDF. Nous nous en sommes assurés en filtrant, triant et additionnant les totaux (pour vérifier qu’ils correspondaient à ce qui était imprimé sur les PDF).
3. Créer une base de données
Le programmeur de l’équipe a configuré une base de données SQL. Chacun des fichiers préparés a ensuite été intégré à la base de données SQL globale. En l’espace d’une journée, tous les fichiers ont été chargés dans la base de données, que l’on pouvait explorer par l’intermédiaire d’une interface à l’aide de mots-clés.
4. Vérifier et analyser
L’équipe a employé deux méthodes principales pour analyser les données.
Via l’interface de la base de données
Cela consistait à saisir des mots-clés particuliers (comme « tabac », « hôtel », « entreprise X ») dans le moteur de recherche. Avec l’aide de Google Translate, qui était intégré à l’outil de recherche de notre base de données, ces mots-clés étaient traduits dans 21 langues et rapportaient les résultats correspondants. Ceux-ci pouvaient être téléchargés et les reporters pouvaient ensuite étudier les projets qui les intéressaient plus en détail.
Par macroanalyse en utilisant la base de données complète
Parfois, nous téléchargions une base de données complète pour l’analyser (par exemple à l’aide de mots-clés, ou en triant les données par pays, région, type de dépense, nombre de projets par bénéficiaire, etc.)
Nos articles étaient nourris par ces deux méthodes, mais également par des recherches sur le terrain et à la rédaction.
La vérification de l’intégrité des données (en les agrégeant et en les comparant aux montants que les autorités disaient avoir alloués) nous a pris un certain temps. L’un des problèmes principaux résidait dans le fait que les autorités ne divulguaient généralement que le montant des « subventions européennes et nationales ». Selon le règlement de l’UE, chaque programme est autorisé à financer un certain pourcentage du coût total par le biais de financements européens. Le montant des subventions européennes est déterminé, au niveau de chaque programme, par ce que l’on appelle le taux de cofinancement. Chaque programme (par exemple, compétitivité régionale) se compose de nombreux projets. Techniquement, un projet peut être entièrement financé par l’Union européenne et un autre pas du tout, du moment que dans son ensemble, le montant des subventions européennes au niveau du programme ne dépasse pas le taux de cofinancement approuvé.
Nous devions donc vérifier le montant de chaque subvention que nous citions dans nos articles auprès de l’entreprise bénéficiaire en question.
Cynthia O’Murchu, The Financial Times