La recherche des archives à l’ère du numérique : une nouvelle donne pour les historiens

Remarque : certains des sites suggérés dans cet article ne sont qu’en anglais.

Les sources numérisées présentent aussi bien des possibilités extraordinaires que des défis redoutables pour les historiens. (Shutterstock)

Le patrimoine documentaire de notre société est en train de subir une transformation radicale.

Il n’y a qu’à penser à toutes les données que nous créons aujourd’hui et qui feront partie des archives de demain. Plus de la moitié de la population mondiale est connectée à Internet et peut faire au moins l’une des choses suivantes : communiquer par courriel, partager des idées sur Twitter ou dans les médias sociaux ou publier sur le Web.

Les gouvernements et les institutions ne sont pas différents. L’American National Archives and Records Administration, l’entité responsable des documents officiels aux États-Unis, n’acceptera plus de documents sur support papier à compter du 31 décembre 2022.

Au Canada, dans le cadre de la stratégie Passer au numérique d’ici 2017 de Bibliothèque et Archives Canada, les documents sont désormais conservés dans le format dans lequel ils ont été créés, ce qui signifie qu’un document Word ou un courriel fera partie de nos documents historiques en tant qu’objet numérique.

Jusqu’à maintenant, l’exploration des archives se faisait surtout par la collecte et l’examen des documents papier. Aujourd’hui, et à l’avenir, consulter des documents d’archives voudra dire de plus en plus souvent les lire sur un écran.

Quelle chance – imaginez pouvoir chercher des mots clés dans des millions de documents et, de ce fait, réduire considérablement le temps consacré à la recherche – mais aussi quel défi, car le nombre de documents électroniques augmente de manière exponentielle.

Comme je le faisais remarquer dans mon récent ouvrage intitulé History in the Age of Abundance, les sources numérisées présentent des possibilités inouïes tout en étant porteuses de défis redoutables pour les historiens. Les universités devront intégrer de nouvelles approches dans la manière dont elles forment les historiens, que ce soit au moyen des programmes d’histoire ou des programmes interdisciplinaires en voie de création dans le domaine des sciences humaines numériques.

L’échelle et la portée sans cesse croissantes des documents numériques laissent entrevoir des défis techniques : les historiens ont besoin de nouvelles compétences pour les examiner à la loupe afin d’en dégager le sens, les tendances, les voix et les autres courants de pensée et de comprendre ce qui s’est produit par le passé.

Il y a également des défis d’ordre éthique qui, bien qu’ils ne soient pas nouveaux, font l’objet d’une attention particulière et d’un examen approfondi à l’heure actuelle.

Les historiens ont pendant longtemps compté sur les bibliothécaires et les archivistes pour mettre de l’ordre dans l’information. Une partie de leur travail a consisté à faire des choix d’ordre éthique relativement à ce qu’il faut préserver, conserver, cataloguer et exposer et à la manière de le faire. Aujourd’hui, de nombreuses sources numériques sont à portée de main, mais elles sont sous forme brute et souvent non cataloguées. Les historiens sont maintenant en territoire inconnu.

L’abondance numérique

Auparavant, comme le soutenait feu le grand historien américain Roy Rosenzweig de la George Mason University, les historiens évoluaient dans une culture caractérisée par la rareté et souhaitaient avoir plus d’informations sur le passé. Aujourd’hui, les centaines de milliards de sites Web conservés dans l’Internet Archive représentent plus de documents d’archives que tout ce à quoi les spécialistes ont jamais eu accès. Des personnes qui n’auraient jamais fait partie des archives auparavant en font désormais partie.

Prenons l’exemple de l’archivage Web, qui consiste à préserver les sites Web pour une utilisation future. Depuis 2005, le Programme d’archivage Web de Bibliothèque et Archives Canada a recueilli plus de 36 téraoctets de données et compte plus de 800 millions de documents.

Même les historiens qui étudient le Moyen Âge ou le 19e siècle sont touchés par cette transformation spectaculaire. Ils consultent désormais fréquemment des documents qui ont commencé sous forme de parchemin ou sur support papier classique et qui ont par la suite été numérisés.

L’alphabétisation numérique et les historiens

Notre équipe de recherche à l’University of Waterloo et à l’Université York collabore au projet Archives Unleashed et utilise des sources telles que les archives Web de GeoCities.com. Il s’agit d’une collection de sites Web publiés par des utilisateurs de 1994 à 2009. Il y a là quelque 186 millions de pages Web créées par sept millions d’utilisateurs.

Les méthodes classiques d’examen des sources historiques ne fonctionnent tout simplement plus face à des centaines de millions de documents créés dans un seul site Web. Il n’est pas possible de lire une page à la fois, de compter les mots clés ni de sous-traiter notre travail intellectuel à un moteur de recherche comme Google.

En tant qu’historiens qui examinent ces archives, nous avons besoin d’une compréhension fondamentale de la manière dont les archives ont été produites, préservées et consultées. Ces questions et ces modes d’analyse s’inscrivent dans la continuité de la formation classique des historiens : pourquoi ces archives ont-elles été créées? Qui les a créées ou préservées? Et qu’est-ce qui n’a pas été préservé?

En outre, les historiens qui sont aux prises avec des données aussi volumineuses doivent acquérir des compétences plus contemporaines pour les traiter. Ces compétences peuvent aller de la capacité de prendre des images de documents et de les rendre consultables au moyen de la reconnaissance optique de caractères à la capacité non seulement de compter le nombre d’occurrences de termes donnés mais aussi de cerner les contextes dans lesquels ils apparaissent et la façon dont certains concepts sont de plus en plus associés à d’autres concepts.

Supposons que vous vouliez trouver le « Johnson » dans « Boris Johnson », mais pas la « Johnson & Johnson Company ». Le simple fait de chercher « Johnson » va donner de nombreux résultats trompeurs : chercher par mot-clé ne va pas vous permettre d’y arriver. Pourtant, selon des recherches émergentes dans ce domaine, les outils de traitement de la langue naturelle pourraient bien vous y aider!

Les historiens doivent acquérir une maîtrise de base des algorithmes et des données. Ils n’ont pas besoin d’être programmeurs, mais ils doivent connaître le fonctionnement du code et des données, la manière dont les objets numériques sont créés et stockés et le rôle que joue l’être humain à toutes les étapes.

L’hypertrucage contre l’histoire

Les historiens, dont le travail est de plus en plus fondé sur des documents numériques, peuvent contribuer aux débats cruciaux sur le rôle des algorithmes et de la vérité à l’ère numérique. Les entreprises de technologie et certains chercheurs ont certes avancé l’idée que la technologie et Internet vont renforcer la participation démocratique, mais la recherche historique peut, quant à elle, aider à cerner l’impact du pouvoir socioéconomique tout au long de l’histoire des communications et des médias. Les historiens peuvent également aider les amateurs à analyser la masse d’informations et de sources historiques que l’on trouve aujourd’hui sur le Web.

L’une des compétences essentielles des historiens est leur compréhension du contexte historique. Les historiens lisent intuitivement les documents, qu’il s’agisse d’articles de journaux, de rapports gouvernementaux ou de gazouillis, et les mettent en contexte non seulement en fonction de leur auteur, mais aussi de leur environnement, de leur culture et de leur époque.

À mesure que les sociétés perdront leurs traces physiques sur papier et s’appuieront de plus en plus sur les informations numériques, les historiens et leur compréhension du contexte deviendront plus importants que jamais.

Les hypertrucages – produits de l’intelligence artificielle qui peuvent modifier des images ou des clips vidéogagnent en popularité, et notre environnement médiatique et nos documents historiques seront de plus en plus truffés de désinformation.

Les archives traditionnelles des sociétés occidentales – telles que celles de Bibliothèque et Archives Canada et de la National Archives and Records Administration – contiennent (et ont toujours contenu) des informations erronées, de fausses représentations et des visions du monde biaisées, entre autres failles.

Les historiens sont des spécialistes de la lecture critique des documents. Ils cherchent ensuite à confirmer ce qu’ils ont lu et étayent leurs constatations au moyen d’un large éventail de voix et de sources supplémentaires. Les historiens font le lien entre leurs constatations et les situations dans leur ensemble et nous aident ainsi à comprendre le monde d’aujourd’hui.

Le travail des historiens peut sembler bien différent au 21e siècle – exploration de bases de données, analyse de données – mais l’application de leurs compétences fondamentales de recherche de contexte et d’accumulation de connaissances leur sera utile et le sera pour toute la société à l’ère numérique.

Cet article a été rédigé par Ian Milligan, professeur agrégé d’histoire à l’University of Waterloo, et a d’abord été publié (en anglais) dans The Conversation le 19 août 2019.

The Conversation