Guide du datajournalisme 1.0 BETA

Se former aux données en trois étapes simples

Plonger dans les données
Plonger dans les données (JDHancock)

Pour comprendre le langage des données, il faut maîtriser l’outil statistique, mais également apprendre à travailler avec de grosses bases de données, savoir comment elles sont produites, comment combiner plusieurs bases de données et comment les interpréter.

L’institut Poynter offre des cours de mathématiques pour les journalistes afin de les initier à des concepts tels que les moyennes et les variations en pourcentage. On notera que ces mêmes concepts sont enseignés à des élèves de 10-11 ans, comme l’atteste le programme officiel.

Que des journalistes aient besoin de cours de soutien pour des sujets normalement vus en primaire montre bien à quel point les salles de rédaction sont loin de maîtriser les données. C’est un vrai problème. Comment un datajournaliste peut-il exploiter un tas de chiffres sur le réchauffement climatique s’il ne sait pas ce qu’est un intervalle de confiance ? Ou écrire un article sur la distribution des revenus s’il ne connait pas la différence entre une moyenne et une médiane ?

Il n’est certes pas nécessaire d’être diplômé en statistique pour exploiter des données de manière plus efficace. Quelques trucs très simples peuvent aider le journaliste à mieux faire face aux chiffres. Comme le dit Gerg Gigerenzer, professeur de l’institut Max Planck, de meilleurs outils ne produiront pas un meilleur journalisme s’ils ne sont pas utilisés avec discernement.

Même si vous manquez de connaissances en maths ou en statistique, vous pouvez facilement devenir un datajournalisme chevronné en vous posant trois questions très simples.

1. Comment les données ont-elles été recueillies ?

La croissance exceptionnelle du PIB

Le moyen le plus simple d’avoir des données spectaculaires à montrer, c’est de les fabriquer. Cela peut sembler évident, mais des données aussi couramment commentées que le PIB peuvent tout à fait être complètement bidonnées. L’ex-ambassadeur britannique Craig Murray relate dans son livre Murder in Samarkand que le taux de croissance de l’Ouzbékistan fait l’objet d’intenses négociations entre le gouvernement local et les institutions internationales. En d’autres termes, il n’a aucun lien avec l’économie locale réelle. Si le PIB est un indicateur aussi important, c’est parce que les gouvernements en ont besoin pour contrôler leur source de revenus principale – la TVA. Quand un gouvernement n’est pas financé par la TVA ou qu’il ne publie pas son budget, il n’a aucune raison de recueillir des données sur le PIB et peut tout aussi bien les fabriquer de toutes pièces.

La criminalité est toujours en augmentation

« Le taux de criminalité en Espagne a augmenté de 3 % », écrit El País. Bruxelles est en proie à une augmentation des crimes commis par les clandestins et les drogués, dit RTL. Ce type d’informations se basant sur des statistiques policières est monnaie courante, mais il ne nous dit pas grand-chose de la violence elle-même.

Au sein de l’Union européenne, on peut être raisonnablement sûr que les données ne sont pas trafiquées. Mais les policiers suivent les ordres. Quand les performances sont liées au taux d’élucidation, par exemple, les policiers ont intérêt à signaler un maximum d’incidents qui ne nécessitent pas d’enquête. L’un de ces délits est la consommation de cannabis. Cela explique pourquoi les infractions à la loi sur les stupéfiants ont été multipliées par quatre en France ces 15 dernières années alors que la consommation est restée stable.

Ce que vous pouvez faire

Quand vous doutez de la véracité d’un chiffre, vérifiez-le toujours deux fois, comme vous le feriez avec une citation d’un homme politique. Dans le cas ouzbek, il vous suffirait de passer un coup de fil à quelqu’un qui habite sur place depuis un certain temps. (« Avez-vous l’impression que le pays est trois fois plus riche qu’en 1995, comme l’indiquent les chiffres officiels ? »)

En ce qui concerne les données de la police, les sociologues mènent régulièrement des enquêtes de victimisation, qui s’avèrent être beaucoup moins sujettes aux variations. C’est peut-être pour ça qu’elles font rarement les gros titres.

D’autres tests vous permettront d’évaluer précisément la crédibilité des données, comme la loi de Benford, mais aucun ne pourra remplacer votre esprit critique.

2. Que nous apprennent les données ?

Le risque de sclérose en plaques est multiplié par deux chez les travailleurs de nuit

N’importe quel Allemand sain d’esprit arrêterait immédiatement de travailler la nuit après avoir lu ce titre. Mais l’article ne nous dit pas vraiment quel est le risque au final.

Prenez mille Allemands. Un seul d’entre eux développera une sclérose en plaques au cours de sa vie. Prenez maintenant mille Allemands qui travaillent de nuit : ce chiffre passe à deux sur mille. Le risque supplémentaire de développer une sclérose en plaques est donc de un sur mille, pas de 100 %. Cette information est clairement plus utile pour prendre une décision.

En moyenne, un Européen sur 15 est complètement illettré

Ce titre peut sembler effarant, mais il est absolument véridique. Sur 500 millions d’Européens, 36 millions ne savent probablement pas lire. Au fait, ces 36 millions d’Européens ont également moins de sept ans (données d’Eurostat).

Quand vous parlez d’une moyenne, vous devez toujours vous demander : une moyenne de quoi ? La population de référence est-elle homogène ? Une distribution inégale peut par exemple expliquer pourquoi la plupart des gens conduisent mieux que la moyenne. La plupart des gens n’ont aucun accident, ou un seul au cours de leur vie. Quelques conducteurs imprudents en ont beaucoup, ce qui explique que la moyenne des accidents soit largement supérieure à ce que la plupart des gens constatent. Il en va de même pour la distribution des revenus : la plupart des gens gagnent moins d’argent que la moyenne.

Ce que vous pouvez faire

Prenez toujours en compte la distribution et le taux de base. Vérifiez la moyenne et la médiane, ainsi que le mode (la valeur la plus fréquente dans la distribution). Il est plus simple de remettre les choses dans leur contexte quand on a une idée de l’ordre de grandeur, comme dans l’exemple sur la sclérose en plaques. Enfin, les fréquences naturelles (un sur cent) sont beaucoup plus faciles à comprendre pour les lecteurs que les pourcentages (1 %).

3. Les informations sont-elles fiables ?

Le problème de la taille de l’échantillon

« Quatre-vingt pour cent d’Espagnols ne sont pas satisfaits de leur système judiciaire », rapporte un sondage du journal Diario de Navarra, basé à Saragosse. Comment peut-on extrapoler l’opinion de 46 millions d’Espagnols à partir des réponses de 800 personnes ? « Il y a forcément une arnaque », pensent certains.

En réalité, quand on étudie une population importante (au-delà de quelques milliers), un échantillon de mille sondés suffit généralement à obtenir une marge d’erreur de moins de 3 %. Cela signifie que si vous refaites le sondage avec un échantillon complètement différent, 19 fois sur 20, les réponses que vous obtiendrez seront les mêmes à 3 % près que si vous aviez sondé la totalité de la population.

La consommation de thé réduit les risques d’accident cardiovasculaire

Les articles vantant les bénéfices de la consommation de thé sont monnaie courante. Un court article paru dans le journal Die Welt indique que le thé réduit également le risque d’infarctus du myocarde. Bien que les effets de la consommation de thé fassent l’objet d’études sérieuses, beaucoup ne prennent pas en compte certains facteurs de style de vie, comme les habitudes alimentaires, la profession ou l’activité sportive.

Dans la plupart des pays, le thé est une boisson consommée par une partie de la classe supérieure qui prend soin de sa santé. Si les chercheurs ne contrôlent pas ces facteurs dans leurs études, ils ne nous disent rien de plus que « les gens riches sont en meilleure santé – et ils boivent probablement du thé ».

Ce que vous pouvez faire

Les corrélations et les marges d’erreur calculées dans les études sur le thé sont certainement correctes, du moins la plupart du temps. Mais si les chercheurs ne prennent pas en compte certaines autres corrélations (par exemple, le fait que la consommation de thé soit associée à la pratique sportive), leurs résultats ne présentent que peu de valeur.

En tant que journaliste, il est généralement futile de s’attaquer au raisonnement mathématique d’une étude, comme à la taille de l’échantillon, à moins d’avoir de sérieux doutes. Cependant, il est facile de vérifier si les chercheurs ont oublié de prendre certaines informations pertinentes en compte.

Nicolas Kayser-Bril, Journalism++