Guide du datajournalisme 1.0 BETA

Utiliser et partager des données. La loi, les petits caractères et la réalité

Badges Open Data
Badges Open Data (Open Knowledge Foundation)

Dans cette section, nous allons faire un rapide tour des lois existantes en matière de données et de bases de données, et voir ce que vous pouvez faire pour ouvrir vos données à l’aide de licences publiques et d’outils juridiques. Les restrictions légales ne devraient pas vous faire obstacle, et vous pouvez facilement vous assurer que les données que vous publiez soient librement utilisables.

C’est une évidence, il n’a jamais été aussi simple d’obtenir des données. Avant l’avènement de la publication de masse sur le Web, même si vous aviez identifié une base de données dont vous aviez besoin, il fallait demander à la personne qui en avait une copie de vous la procurer, ce qui impliquait potentiellement du papier, un tour à la poste voire une visite en personne. Aujourd’hui, vous utilisez votre ordinateur pour demander à son ordinateur d’envoyer une copie des données au vôtre. Le concept est similaire, mais vous avez obtenu une copie en quelques instants, et il (le créateur ou l’éditeur) n’a rien fait, et n’a probablement même pas idée que vous avez téléchargé une copie.

Qu’en est-il du téléchargement de données avec un programme (parfois appelé « scraping ») et des conditions d’utilisation ? Songez au paragraphe précédent : votre navigateur est l’un de ces programmes. Les conditions d’utilisation du site n’autorisent-elles l’accès qu’à certains types de programmes ? Si vous avez du temps et de l’argent à perdre en lisant ces documents, voire en demandant les conseils d’un avocat, surtout, faites-le. Mais en règle générale, évitez simplement de jouer au plus malin : si votre programme pilonne un site web, il y a des chances pour que votre adresse IP soit ensuite bannie du site en question – et vous l’aurez peut-être mérité. Il existe maintenant un vaste ensemble de bonnes pratiques en matière d’accès aux données et de Webscraping. Si vous comptez vous y mettre, lisez des exemples sur un site comme ScraperWiki pour prendre une longueur d’avance.

Une fois que vous avez mis la main sur des données intéressantes, vous pouvez les étudier, les trier, les visualiser, les recouper et effectuer toute autre manipulation de votre choix. Vous pouvez publier votre analyse et citer les données que vous voulez. Certaines personnes aiment à répéter que « les faits sont libres », mais lorsque l’on regarde de plus près le cadre juridique des bases de données, on s’aperçoit que les choses sont un peu plus compliquées : il n’est pas toujours possible de publier les données utilisées dans une enquête.

Que se passe-t-il par ailleurs si, en bon datajournaliste que vous êtes, vous décidez de publier non seulement votre analyse, comprenant des faits ou des données, mais également les bases de données que vous avez utilisées – et peut-être enrichies – pour effectuer votre analyse ? Ou peut-être que vous vous contentez de recueillir des données et que vous n’avez encore effectué aucune analyse (très bien : le monde a besoin de curateurs de données). Si vous utilisez des données recueillies par une autre entité, il risque toujours d’y avoir un hic. (Vous avez entièrement assemblé votre base de données vous-même ? Lisez tout de même le paragraphe suivant pour découvrir les bonnes pratiques en matière de partage.)

Si vous avez une vague idée du fonctionnement du droit d’auteur, vous savez que si l’auteur ne vous a pas donné la permission d’utiliser son travail (à moins qu’il ne soit tombé dans le domaine public ou que son utilisation soit autorisée dans le cadre du fair use) et que vous l’utilisez tout de même (en le distribuant, en le jouant, etc.), l’auteur peut vous forcer à arrêter. Les faits ont beau être libres, les recueils de faits peuvent être couverts par des droits très similaires, même si les lois en la matière sont plus variables que les lois sur le droit d’auteur. En bref, une base de données peut être soumise au droit d’auteur, comme un travail de création. Dans de nombreuses juridictions, le simple fait d’assembler une base de données à la « sueur de son front » (sweat of the brow, une doctrine de common law), même de manière non créative, rend la base de données sujette au droit d’auteur. Aux États-Unis plus qu’ailleurs, il y a une tendance à exiger un minimum de créativité pour que le droit d’auteur s’applique (voir le procès Feist vs Rural, une affaire d’annuaire téléphonique). Mais dans certaines juridictions, il y a également des lois sur la propriété intellectuelle des bases de données distinctes des lois sur le droit d’auteur. Le droit sui generis de l’Union européenne sur les bases de données est l’exemple le plus connu en la matière. Là encore, particulièrement si vous êtes en Europe, vous avez intérêt à demander la permission avant de publier une base de données que vous n’avez pas créée vousmême. En France par exemple, le législateur exige qu’un « investissement substantiel » soit réalisé avant qu’une base de données soit protégée par le droit d’auteur. La législation est beaucoup plus favorable aux créateurs de bases de données aux États-Unis. Manifestement, de telles restrictions ne sont pas idéales pour développer un bon écosystème de datajournalisme (ni pour la société en général – des sociologues et d’autres l’avaient prédit et des études l’ont démontré depuis). Par chance, si vous publiez vousmême une base de données, vous pouvez lever ces restrictions (en supposant qu’elle ne contienne pas d’éléments dont vous ne pouvez pas autoriser la réutilisation). Pour ce faire, vous pouvez publier votre base de données sous licence publique – de même que beaucoup de programmeurs publient leur code sous licence open source afin que d’autres puissent l’améliorer (et comme le datajournalisme implique souvent du code, et pas seulement des données, vous avez vous aussi tout intérêt à publier votre code afin que votre processus de collecte et d’analyse de données soit reproductible). Il y a beaucoup de bonnes raisons d’ouvrir vos données. Par exemple, vos lecteurs peuvent s’en servir pour créer de nouvelles applications ou visualisations que vous pourrez ensuite intégrer dans votre travail – comme le fait The Guardian avec sa galerie de visualisations sur Flickr. Vos bases de données peuvent être combinées à d’autres pour permettre à vous et à vos lecteurs de mieux comprendre un sujet. L’usage que d’autres font de vos données peut également vous apporter des pistes pour de nouvelles histoires, ou des idées d’histoires, voire des idées pour d’autres projets de datajournalisme. Et vous en serez chaleureusement remercié.

Une fois qu’on a compris qu’il était indispensable de publier son travail sous licence publique, la question qui se pose est : quelle licence ? Cette question délicate trouvera souvent sa réponse dans le projet ou la communauté dont vous exploitez le travail, ou à laquelle vous voulez contribuer ; utilisez la même licence. Si vous voulez creuser le sujet, commencez par étudier les licences gratuites et ouvertes – permettant à tous d’utiliser vos données à n’importe quelle fin (il peut être nécessaire de créditer le travail et de le partager). Ce que le logiciel libre et l’open source ont fait pour le logiciel, l’Open Knowledge Definition le fait pour tout le reste du savoir, y compris les bases de données : elle définit ce qui constitue un travail ouvert, et ce que les licences ouvertes permettent aux utilisateurs de faire.

Vous pouvez consulter le site web de l’Open Knowledge Definition pour voir les licences qui répondent actuellement à ces critères. Pour résumer, il existe en gros trois classes de licences ouvertes.

Licences de domaine public

Ce sont les licences les plus permissives ; le travail n’est soumis à aucune condition d’utilisation.

Licences permissives ou à attribution de paternité uniquement

La condition principale de ces licences consiste à attribuer l’œuvre à son auteur.

Licences copyleft, réciproques ou share-alike

Ces licences exigent que les œuvres modifiées, si elles sont publiées, soient partagées sous la même licence.

Si vous utilisez une base de données publiée par quelqu’un d’autre sous licence ouverte, voyez le paragraphe ci-dessus comme un bref guide des conditions à remplir pour respecter cette licence ouverte. Les licences que vous risquez de rencontrer le plus souvent, qu’elles proviennent de Creative Commons, Open Data Commons ou de divers gouvernements, comportent généralement un résumé permettant de déterminer facilement quelles sont les conditions principales. Le plus souvent, la licence sera inscrite sur la page web à partir de laquelle une base de données peut être téléchargée (ou « scrapée », bien sûr, car les pages web peuvent également contenir des données), ou en évidence à l’intérieur même de la base de données, selon son format. Pensez à en faire de même avec vos propres bases de données.

Pour en revenir au départ, que faire si la base de données que vous avez besoin d’obtenir n’est toujours pas accessible en ligne, ou se trouve derrière une sorte d’accès sécurisé ? Songez, en plus de demander à y accéder vous-même, à suggérer d’ouvrir l’accès aux données pour que tout le monde puisse en profiter. Vous avez maintenant quelques arguments qui peuvent jouer en votre faveur.

N’oubliez pas que les lois de protection de la vie privée et d’autres considérations et réglementations peuvent parfois concerner certaines bases de données. En effet, ce n’est pas parce que l’Open Data abaisse de nombreuses barrières techniques et juridiques que vous êtes dispensé de respecter d’autres lois applicables. Mais il en a toujours été ainsi, et les journalistes disposent de ressources et parfois de protections inestimables.

Bonne chance ! Mais selon toute vraisemblance, vous en aurez plus besoin pour d’autres aspects de votre projet que pour gérer les (faibles) risques juridiques.

Mike Linksvayer, Creative Commons