Guide du datajournalisme 1.0 BETA

Le Web comme source de données

Comment trouver plus d’informations sur quelque chose qui n’existe que sur Internet ? Qu’il s’agisse d’une adresse mail, d’un site web, d’une image ou d’un article Wikipédia, nous allons voir quels outils vous permettront d’en savoir plus.

Les outils web

Tout d’abord, voici quelques services que vous pouvez utiliser pour en savoir plus sur un site entier.

Whois

En allant à l’adresse whois.domaintools.com (ou en tapant simplement « whois www.exemple.com » dans le terminal sur un Mac, en remplaçant l’URL par celle de votre choix), vous obtiendrez les données d’enregistrement de n’importe quel site web. Ces dernières années, certains propriétaires ont choisi des méthodes d’enregistrement anonymes, mais bien souvent, vous trouverez le nom, l’adresse, le mail et le numéro de téléphone de la personne ayant enregistré le site web. Vous pouvez également saisir des adresses IP numériques et obtenir des données sur l’organisation ou l’individu qui possède le serveur. C’est particulièrement pratique quand vous essayez de trouver des informations sur un utilisateur abusif ou malveillant d’un service, car la plupart des sites web conservent l’adresse IP de toutes les personnes qui y accèdent.

Blekko

Le moteur de recherche Blekko offre une quantité incroyable d’informations grâce aux statistiques internes qu’il collecte en parcourant le Web. Si vous entrez un nom de domaine suivi de « /seo », vous obtiendrez une page d’informations sur cette URL. Le premier onglet (figure ci-dessous) vous montre quels autres sites renvoient vers le domaine par ordre de popularité. Cela peut s’avérer extrêmement utile pour comprendre quelle couverture reçoit un site, et pourquoi il est si bien classé dans les résultats de recherche de Google, puisque ceux-ci sont basés sur ces mêmes liens entrants. Sur la capture d’écran ci-dessous, vous pouvez voir quels autres sites web tournent sur la même machine. Il est courant pour les scammers et les spammers de se forger une crédibilité en construisant plusieurs sites qui renvoient les uns vers les autres. On dirait des domaines indépendants, et ils peuvent même avoir des détails d’enregistrement différents, mais bien souvent, ils se trouvent sur le même serveur parce que c’est l’option la plus économique. Ces statistiques vous donneront une idée de la structure commerciale cachée du site que vous étudiez.

Le moteur de recherche de Blekko
Le moteur de recherche de Blekko (Blekko.com)
figs/incoming/06-PP-02.png
Comprendre la popularité sur le web: Qui envoit des liens à qui? Un autre onglet pratique est "Crawl stats", surtout la section "Cohosted with" (Blekko.com)
Détecter les spammers et les scammers
Détecter les spammers et les scammers (Blekko.com)
Compete.com

En sondant un échantillon représentatif des consommateurs américains, http://www. compete.com/ établit des statistiques d’utilisation détaillées pour la plupart des sites web, et certains détails de base sont disponibles gratuitement. Sélectionnez l’onglet Site Profile et saisissez un nom de domaine (illustration ci-dessous). Vous verrez alors un graphique détaillant le trafic du site au cours de l’année passée, ainsi que des statistiques sur le nombre et la régularité des visites. Comme ils sont basés sur des sondages, ces chiffres ne sont que des approximations, mais j’ai pu constater qu’ils étaient relativement précis quand j’ai eu l’occasion de les comparer avec des statistiques internes. Il semblerait que ce soit notamment une bonne source pour comparer deux sites, car même si les valeurs absolues peuvent être inexactes pour les deux, elles donnent tout de même une bonne idée de leur différence relative en termes de popularité. En revanche, ce site ne sonde que les consommateurs américains, alors peu de données seront disponibles pour les sites principalement internationaux.

Le site de Compete.com
Le site de Compete.com (Compete.com)
Quelles sont les modes du moment? Repérer les points chauds sur le web
Quelles sont les modes du moment? Repérer les points chauds sur le web (Compete.com)
Recherche ciblée avec Google

Une fonctionnalité qui peut s’avérer extrêmement utile pour explorer le contenu d’un domaine particulier est le mot-clef « site: ». Si vous ajoutez « site:exemple.com » à vos termes de recherche, Google renverra uniquement les résultats hébergés sur le site spécifié. Vous pouvez préciser votre recherche en incluant le préfixe des pages qui vous intéressent, par exemple « site:exemple.com/pages/ », et vous obtiendrez uniquement les résultats correspondants. Cela peut s’avérer utile pour trouver les informations que le propriétaire du domaine a mises en ligne par mégarde mais qu’il ne tient pas à diffuser ; en choisissant les bons mots-clefs, vous trouverez peut-être des informations très révélatrices.

Rechercher des pages web, des images et des vidéos

Parfois, vous vous intéresserez à l’activité entourant une histoire particulière plutôt qu’à un seul site web. Les outils ci-dessous vous aideront à mieux percevoir comment les gens lisent, réagissent, copient et partagent le contenu sur le Web.

Bit.ly

Je me tourne toujours vers bit.ly quand je veux savoir comment les gens partagent un lien en particulier. Pour l’utiliser, saisissez l’URL qui vous intéresse, puis cliquez sur le lien Info Page+. Vous serez redirigé vers la page des statistiques complètes (vous devrez peut-être commencer par sélectionner « aggregate bit.ly link » si vous êtes identifié au service). Cela vous donnera une meilleure idée de la popularité de la page, notamment de son activité sur Facebook et Twitter, et vous trouverez en-dessous les conversations publiques sur le lien en question fournies par backtype.com. Je trouve cette combinaison de données de trafic et de conversations très utile pour comprendre pourquoi tel site ou telle page est populaire, et quelles sont les personnes qui y contribuent.

Twitter

Le service de micro-blogging étant de plus en plus utilisé, il est de plus en plus utile pour jauger comment les gens partagent et débattent du contenu. Il est extrêmement simple de trouver des conversations publiques sur un lien. Il suffit de copier l’URL qui vous intéresse dans la zone de recherche, puis de cliquer sur « more tweets » pour voir la liste de résultats complète.

Cache de Google

Quand une page prête à controverse, ses publicateurs peuvent décider de la supprimer ou de la modifier sans préavis. Si vous suspectez que c’est le cas, la première chose à faire consiste à consulter le cache de Google. La fréquence des mises à jour est en constante augmentation, alors vous aurez plus de chances en essayant dans les heures qui suivent les changements suspectés. Saisissez l’URL cible dans le champ de recherche de Google, puis cliquez sur la triple flèche à droite du résultat. Un aperçu graphique devrait apparaître, et si vous avez de la chance, il y aura un petit lien « Cache » au sommet. Cliquez dessus pour voir la capture de la page réalisée par Google lors de la dernière indexation. Si la page a du mal à se charger, vous pouvez basculer vers une version plus basique comprenant uniquement le texte en cliquant sur un autre lien au sommet de la page. Vous avez intérêt à prendre une capture d’écran ou à sauvegarder tout le contenu pertinent, car il risque d’être invalidé à tout moment par une nouvelle indexation.

Internet Archive : la machine à remonter le temps

Si vous avez besoin de suivre l’évolution d’une page sur une longue période, plusieurs mois ou plusieurs années, l’Internet Archive offre un service appelé The Wayback Machine qui capture périodiquement le contenu des pages les plus populaires du Web. Vous allez sur le site, vous saisissez le lien que vous souhaitez étudier, et s’il existe des copies, vous aurez la possibilité de sélectionner la date voulue dans un calendrier. Vous verrez alors une copie approximative de la page telle qu’elle était à ce moment-là. Il manquera souvent des éléments de style ou des images, mais cela suffit généralement à se faire une idée du contenu de la page.

Code source

C’est peut-être faire preuve d’optimisme, mais les développeurs laissent souvent des commentaires ou d’autres indices dans le code HTML. Tous les navigateurs offrent une option permettant de voir le code source brut d’une page. Pas besoin d’être un expert en programmation pour repérer les petits bouts de texte qui peuvent se balader. Même s’il s’agit uniquement d’un avis de copyright ou du nom de l’auteur, ces informations peuvent souvent donner des indices importants sur la création et le but de la page.

TinEye

Parfois, vous voulez vraiment connaître la source d’une image, mais sans légende claire, il n’existe aucun moyen évident de la retrouver avec des moteurs de recherche traditionnels comme Google. TinEye est un moteur de recherche d’images inversé : vous lui donnez l’image que vous avez, et il trouve d’autres images qui lui ressemblent sur le Web. Comme il utilise un algorithme de reconnaissance d’image pour établir des correspondances, il fonctionne même quand une copie a été recadrée, déformée ou compressée. Cela peut s’avérer extrêmement efficace quand vous suspectez qu’une image est présentée à tort comme originale ou nouvelle, car vous pouvez ainsi remonter à la source.

YouTube

Si vous cliquez sur l’icône Statistiques dans le coin inférieur droit de n’importe quelle vidéo, vous obtiendrez quantité d’informations sur l’évolution de son public au fil du temps. Bien qu’elles ne soient pas complètes, ces statistiques sont utiles pour se faire une idée de qui sont les visiteurs, d’où ils viennent et quand.

Faire parler les emails

Si vous analysez des emails, vous voudrez généralement avoir plus de détails sur l’identité et l’emplacement de l’expéditeur. Il n’existe aucun bon outil prêt à l’emploi pour ce faire, mais il peut être très utile de connaître les bases des en-têtes cachés inclus dans chaque mail. Ces en-têtes fonctionnent comme des cachets postaux, et peuvent révéler une quantité surprenante d’informations sur l’expéditeur. Ils comprennent bien souvent l’adresse IP de la machine depuis laquelle le mail a été envoyé, que vous pouvez ensuite passer au « whois » pour savoir à quelle organisation elle appartient. S’il s’avère que c’est un FAI public, vous pouvez alors utiliser MaxMind pour obtenir son emplacement approximatif.

Pour voir ces en-têtes dans Gmail, ouvrez le message, déroulez le menu à côté du bouton Répondre, en haut à droite, puis cliquez sur Afficher l’original.

Vous verrez alors une nouvelle page révélant le contenu caché. Il devrait y avoir deux douzaines de lignes au début qui se finissent par un point-virgule. L’adresse IP que vous cherchez peut se trouver là-dedans, mais son nom dépendra de la façon dont l’email a été envoyé. S’il a été envoyé depuis Hotmail, l’adresse se trouvera dans « X-OriginatingIP: », mais s’il provient d’Outlook ou de Yahoo!, elle se trouvera dans la première ligne commençant par « Received: ».

En passant une adresse IP au « whois », j’apprends qu’elle est attribuée à Virgin Media, un FAI anglais, alors je la saisis dans le service de géo-localisation MaxMind pour découvrir qu’elle se trouve dans ma ville natale de Cambridge. Je peux donc être raisonnablement sûr qu’il s’agit bien de mes parents qui m’écrivent et pas d’imposteurs !

Les tendances

Si vous enquêtez sur un sujet général plutôt qu’un site ou un élément particulier, voici quelques outils qui pourront vous apporter plus d’informations.

Trafic des articles Wikipédia

Si vous voulez voir comment l’intérêt public autour d’un sujet ou d’une personne évolue au fil du temps, vous pouvez obtenir les statistiques de visite de Wikipédia jour par jour sur http://stats.grok.se/. Le site est un peu brut de décoffrage, mais vous pourrez trouver les informations dont vous avez besoin en creusant un peu. Saisissez le nom qui vous intéresse pour obtenir une vue mensuelle du trafic de cette page. Vous obtiendrez un graphique présentant le nombre de visites de la page pour chaque jour du mois spécifié. Malheureusement, il n’est possible de voir qu’un seul mois à la fois. Pour suivre des changements à plus long terme, vous devrez sélectionner un nouveau mois et relancer la recherche.

Vous pouvez avoir un aperçu des recherches les plus populaires à l’aide de Google Trends. Saisissez deux recherches courantes, comme « Justin Bieber vs Lady Gaga », et vous obtiendrez un graphique comparant l’évolution de leur nombre de recherches respectifs. De nombreuses options permettent d’affiner la recherche, de cibler une zone géographique ou une période particulière. La seule limite, c’est le manque de valeurs absolues – on n’obtient que des pourcentages relatifs, qui peuvent être difficiles à interpréter.

Google Insights
Google Insights (Google)

Pete Warden, analyste de données et développeur indépendant