Le crowdsourcing de données au Guardian Datablog
Le crowdsourcing, d’après Wikipédia est « l’utilisation de la créativité, de l’intelligence et du savoir-faire d’un grand nombre de personnes, en sous-traitance, pour réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur ». Voici un extrait d’un entretien avec Simon Rogers sur l’utilisation du crowdsourcing par le Datablog pour couvrir différents sujets tels que le scandale des notes de frais des parlementaires britanniques, la consommation de drogues et les mails de Sarah Palin.
« Parfois, vous obtiendrez une tonne de fichiers, de statistiques ou de rapports impossible à faire analyser par une seule personne. Il se peut également que vous tombiez sur des documents inaccessibles ou dans un mauvais format et que vous ne puissiez pas en tirer grand-chose. C’est là que le crowdsourcing peut vous venir en aide.
Une chose dont The Guardian peut se vanter, c’est d’avoir beaucoup de lecteurs, de paires d’yeux. Si nous avons besoin de leur avis, nous pouvons compter sur eux. C’est ce que nous avons fait avec les notes de frais des parlementaires britanniques. Nous avions 450 000 documents et très peu de temps pour faire quoi que ce soit. Alors quelle meilleure solution que de proposer cette tâche à notre lectorat ?
Le projet des notes de frais a généré des tonnes de signalements. Nous avons obtenu plus d’histoires que de données. Le sujet a rencontré un succès remarquable en termes de trafic. Les gens l’ont vraiment apprécié.
Nous réalisons actuellement un projet avec MixMag sur la consommation de drogues, qui rencontre également un succès phénoménal. Il semblerait que nous allions recevoir plus de retours que l’enquête officielle du gouvernement britannique sur la criminalité, ce qui est exceptionnel.
Le point commun de ces deux projets, c’est qu’ils traitent de problèmes qui touchent personnellement les gens. Ceux-ci sont donc plus enclins à y consacrer du temps. Une bonne partie de notre crowdsourcing se fait grâce à l’aide de quelques acharnés. Avec les frais des députés, nous avons généré un énorme trafic au début qui s’est progressivement éteint ensuite. Mais il reste des gens qui parcourent compulsivement chaque page à la recherche d’histoires et d’anomalies : un de nos lecteurs a consulté 30 000 pages. Autant dire qu’il en sait long. Nous avons également continué le crowdsourcing avec l’affaire des mails de Sarah Palin. Une fois de plus, cela nous a été d’une grande aide pour dénicher des histoires dans les informations brutes.
En matière de création d’histoires, le crowdsourcing a vraiment été utile pour nous. Les gens apprécient cette approche, et cela donne une bonne image du Guardian. Nous ne nous en sommes pas beaucoup servis en revanche pour générer des données.
Certains des projets de crowdsourcing que nous avons réalisés et qui ont bien fonctionné ressemblaient plus à des enquêtes « à l’ancienne ». Quand vous demandez aux gens de partager leur expérience, leur vie – ce qu’ils ont fait –, les sondages fonctionnent bien parce que les participants ont moins tendance à broder. Ils disent ce qu’ils ressentent. Quand nous demandons à nos lecteurs de faire en quelque sorte notre travail à notre place, nous devons leur offrir une structure pour qu’ils produisent les données de manière fiable. En matière de fiabilité des données, j’aime beaucoup l’approche employée par Old Weather. Ils font réaliser chaque saisie par dix personnes différentes, ce qui est une bonne façon de garantir une certaine précision. Avec les notes de frais des députés, nous avons essayé de réduire le risque que des députés ne modifient leurs propres dossiers pour améliorer leur image, mais il n’existe aucun garde-fou absolu. Nous pouvions seulement surveiller certaines URL ou les connexions provenant de la zone SW1 (centre-ville) de Londres. Les données que nous obtenions n’étaient pas toujours fiables. Les histoires étaient géniales, mais elles ne produisaient pas de chiffres bruts que nous pouvions utiliser en toute confiance.
Si je devais donner un conseil aux aspirants datajournalistes voulant utiliser le crowdsourcing pour recueillir des données, je les inciterais à le faire avec une information qui touche vraiment les gens, et qui continuera de les intéresser quand elle aura disparu de la une. Par ailleurs, vous pouvez impliquer encore plus les lecteurs en présentant la chose comme un jeu. C’est ce que nous avons fait quand nous avons réalisé notre deuxième dossier sur les notes de frais, en attribuant à chacun des tâches individuelles. Je pense que cela a fait une grosse différence, car si vous vous contentez de donner des tonnes d’informations à parcourir aux gens, le travail est plus dur et moins gratifiant. Je crois qu’il est vraiment important de donner un aspect ludique aux projets de crowdsourcing. »
Marianne Bouchart, Data Journalism Blog, entretien avec Simon Rogers, The Guardian