Le subventionnement des bus en Argentine
Depuis 2002, les subventions allouées au système de transport public argentin ont augmenté de manière exponentielle, établissant un nouveau record chaque année. Mais en 2011, après avoir remporté les élections, le nouveau gouvernement argentin a annoncé des coupes dans les subventions aux services publics à partir du mois de décembre de cette même année. Dans le même temps, le gouvernement national a décidé de transférer l’administration des lignes de bus et de métro locales au gouvernement de la ville de Buenos Aires. Comme le transfert de subventions vers ce gouvernement local n’avait pas été clarifié et qu’il manquait de financements locaux pour assurer la sécurité des transports, le gouvernement de la ville de Buenos Aires a rejeté cette décision.
Pendant ce temps, mes collègues de La Nación et moi-même nous réunissions pour la première fois pour débattre du lancement de notre propre opération de datajournalisme. Suivant la suggestion de notre rédacteur financier, nous avons décidé que les données sur les subventions publiées par le Secretaría de Transporte seraient un bon défi pour commencer, étant particulièrement difficiles à interpréter en raison de leur format et de la terminologie employée.
Les mauvaises conditions du système de transport public affectent la vie de plus de 5 800 000 passagers chaque jour. Des retards, des grèves, des pannes et même des accidents se produisent régulièrement. Nous avons donc décidé de vérifier où allaient les subventions allouées au système de transport public argentin et de rendre ces données facilement accessibles à tous les citoyens argentins par l’intermédiaire d’un « explorateur des subventions aux transports », actuellement en cours de construction.
Nous avons commencé par calculer combien d’argent les entreprises d’autobus recevaient chaque mois de la part du gouvernement. Pour ce faire, nous avons étudié les données publiées sur le site web du ministère du Transport, qui comprend plus de 400 PDF détaillant les paiements mensuels accordés à plus de 1 300 entreprises depuis 2006.
En collaboration avec un programmeur expérimenté, nous avons développé un scraper afin d’automatiser le téléchargement et la conversion de ces PDF en fichiers Excel et en bases de données. Nous avons utilisé la base de données résultante contenant plus de 285 000 entrées pour nos enquêtes et nos visualisations, dans le journal papier et en ligne. De plus, nous avons rendu ces données accessibles dans un format lisible par machine pour que tous les Argentins puissent les réutiliser et les partager.
L’étape suivante consistait à déterminer combien coûtait en moyenne au gouvernement l’entretien mensuel d’un véhicule de transport public. Pour trouver cette information, nous sommes allés sur un autre site web gouvernemental, celui de la Comision Nacional de Regulacion del Transporte (CNRT), responsable de la réglementation des transports en Argentine. Sur ce site web, nous avons trouvé une liste d’entreprises d’autobus possédant au total 9 000 véhicules. Nous avons développé un normaliseur pour uniformiser les noms des entreprises et recouper les deux bases de données.
Pour la suite, nous avions besoin des plaques d’immatriculation de chaque véhicule. Sur le site de la CNRT, nous avons trouvé une liste de véhicules par ligne de bus et par entreprise avec leurs plaques d’immatriculation. En Argentine, les numéros d’immatriculation se composent de lettres et de chiffres correspondant à l’âge du véhicule. Par exemple, ma voiture est immatriculée IDF234, et le « I » correspond à la période de mars-avril 2011. Nous avons ainsi utilisé les immatriculations pour déterminer l’âge moyen des bus de chaque entreprise, afin de voir combien d’argent était alloué à chaque entreprise et de comparer ces montants à l’âge moyen de leurs véhicules.
En plein milieu de ce processus, les PDF publiés par le gouvernement contenant les données dont nous avions besoin ont mystérieusement changé, alors que les URL et le nom des fichiers étaient restés identiques. Certains PDF ne comportaient plus la colonne « totaux » afin de rendre impossible le recoupement des totaux sur toute la période étudiée, 2002-2011.
Nous avons porté l’affaire dans un hackathon organisé par Hack/Hackers à Boston, au cours duquel le développeur Matt Perry a généreusement créé ce que nous appelons le « PDF spy ». Cette application a remporté la palme du projet le plus intrigant du hackathon. Elle permet d’analyser un site web plein de PDF et de vérifier si le contenu des fichiers a changé. « Ne vous faites plus jamais berner par la « transparence « du gouvernement », écrit Matt Perry.
Qui a travaillé sur le projet ?
Une équipe de sept personnes comprenant des journalistes, des programmeurs et un designer interactif ont travaillé sur cette enquête pendant 13 mois.
Pour ce projet, nous avions besoin des compétences suivantes.
- Des journalistes connaissant les rouages du système de subventionnement des transports publics et les risques impliqués ; une connaissance du marché des entreprises d’autobus.
- Un programmeur compétent en matière de Webscraping, de traitement et de normalisation des données et d’extraction de fichiers PDF vers des feuilles de calcul Excel.
- Un statisticien pour réaliser l’analyse des données et les différents calculs.
- Un designer pour produire les visualisations de données interactives.
Quels outils avons-nous utilisé ?
Nous avons utilisé VBasic pour développer les applications, des macros Excel, Tableau Public, la plateforme Junar Open Data, ainsi que Ruby on Rails, l’API Google Chart et MySQL pour l’explorateur de subventions.
Le projet a eu un impact retentissant. Nous avons reçu des milliers de visites et l’enquête est parue à la une de l’édition papier de La Nación.
Le succès de ce premier projet de datajournalisme nous a aidés à convaincre en interne du bien-fondé de la création d’un service de datajournalisme pour mener des enquêtes et offrir des services au public. Nous avons ainsi créé Data.lanacion.com.ar, une plate-forme sur laquelle nous publions des données sur divers sujets d’intérêt public dans des formats exploitables par ordinateur.
Angélica Peralta Ramos, La Nación (Argentine)