Le crowdsourcing de données au Guardian Datablog

Une copie censurée des notes de frais de Stephen Pound (The Guardian)

Le crowdsourcing, d’après Wikipédia est « l’utilisation de la créativité, de l’intelligence et du savoir-faire d’un grand nombre de personnes, en sous-traitance, pour réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur ». Voici un extrait d’un entretien avec Simon Rogers sur l’utilisation du crowdsourcing par le Datablog pour couvrir différents sujets tels que le scandale des notes de frais des parlementaires britanniques, la consommation de drogues et les mails de Sarah Palin.

« Parfois, vous obtiendrez une tonne de fichiers, de statistiques ou de rapports impossible à faire analyser par une seule personne. Il se peut également que vous tombiez sur des documents inaccessibles ou dans un mauvais format et que vous ne puissiez pas en tirer grand-chose. C’est là que le crowdsourcing peut vous venir en aide.

Une chose dont The Guardian peut se vanter, c’est d’avoir beaucoup de lecteurs, de paires d’yeux. Si nous avons besoin de leur avis, nous pouvons compter sur eux. C’est ce que nous avons fait avec les notes de frais des parlementaires britanniques. Nous avions 450 000 documents et très peu de temps pour faire quoi que ce soit. Alors quelle meilleure solution que de proposer cette tâche à notre lectorat ?

Le projet des notes de frais a généré des tonnes de signalements. Nous avons obtenu plus d’histoires que de données. Le sujet a rencontré un succès remarquable en termes de trafic. Les gens l’ont vraiment apprécié.

Nous réalisons actuellement un projet avec MixMag sur la consommation de drogues, qui rencontre également un succès phénoménal. Il semblerait que nous allions recevoir plus de retours que l’enquête officielle du gouvernement britannique sur la criminalité, ce qui est exceptionnel.

Le point commun de ces deux projets, c’est qu’ils traitent de problèmes qui touchent personnellement les gens. Ceux-ci sont donc plus enclins à y consacrer du temps. Une bonne partie de notre crowdsourcing se fait grâce à l’aide de quelques acharnés. Avec les frais des députés, nous avons généré un énorme trafic au début qui s’est progressivement éteint ensuite. Mais il reste des gens qui parcourent compulsivement chaque page à la recherche d’histoires et d’anomalies : un de nos lecteurs a consulté 30 000 pages. Autant dire qu’il en sait long. Nous avons également continué le crowdsourcing avec l’affaire des mails de Sarah Palin. Une fois de plus, cela nous a été d’une grande aide pour dénicher des histoires dans les informations brutes.

En matière de création d’histoires, le crowdsourcing a vraiment été utile pour nous. Les gens apprécient cette approche, et cela donne une bonne image du Guardian. Nous ne nous en sommes pas beaucoup servis en revanche pour générer des données.

Certains des projets de crowdsourcing que nous avons réalisés et qui ont bien fonctionné ressemblaient plus à des enquêtes « à l’ancienne ». Quand vous demandez aux gens de partager leur expérience, leur vie – ce qu’ils ont fait –, les sondages fonctionnent bien parce que les participants ont moins tendance à broder. Ils disent ce qu’ils ressentent. Quand nous demandons à nos lecteurs de faire en quelque sorte notre travail à notre place, nous devons leur offrir une structure pour qu’ils produisent les données de manière fiable. En matière de fiabilité des données, j’aime beaucoup l’approche employée par Old Weather. Ils font réaliser chaque saisie par dix personnes différentes, ce qui est une bonne façon de garantir une certaine précision. Avec les notes de frais des députés, nous avons essayé de réduire le risque que des députés ne modifient leurs propres dossiers pour améliorer leur image, mais il n’existe aucun garde-fou absolu. Nous pouvions seulement surveiller certaines URL ou les connexions provenant de la zone SW1 (centre-ville) de Londres. Les données que nous obtenions n’étaient pas toujours fiables. Les histoires étaient géniales, mais elles ne produisaient pas de chiffres bruts que nous pouvions utiliser en toute confiance.

Si je devais donner un conseil aux aspirants datajournalistes voulant utiliser le crowdsourcing pour recueillir des données, je les inciterais à le faire avec une information qui touche vraiment les gens, et qui continuera de les intéresser quand elle aura disparu de la une. Par ailleurs, vous pouvez impliquer encore plus les lecteurs en présentant la chose comme un jeu. C’est ce que nous avons fait quand nous avons réalisé notre deuxième dossier sur les notes de frais, en attribuant à chacun des tâches individuelles. Je pense que cela a fait une grosse différence, car si vous vous contentez de donner des tonnes d’informations à parcourir aux gens, le travail est plus dur et moins gratifiant. Je crois qu’il est vraiment important de donner un aspect ludique aux projets de crowdsourcing. »

Marianne Bouchart, Data Journalism Blog, entretien avec Simon Rogers, The Guardian