Lieux de mémoires et citoyen.ne.s numérique : un dialogue impossible ?

par Paul GOURMAUD
L'École de design Nantes Atlantique - Master 2 Digital Design 2024

précédent sommaire suivant

2.1 - Big Data et maîtrise de l'archivage

Chaque minute en 2022 : 500 heures de vidéos étaient mises en ligne sur YouTube, plus de 100 000 heures ont été passées en meeting sur Zoom, près de 6 millions de recherches ont été faites sur Google d'après le 10e rapport annuel « Data never sleeps » de l'entreprise DOMO ¹⁴ . Cette quantité démesurée d'informations représente ce que nous appelons aujourd'hui le « big data » ou en bon français « mégadonnées ». En 2014, la Commission générale de terminologie et de néologie, en plus de proposer cette traduction, nous donne également cette définition : « Données structurées ou non dont le très grand volume requiert des outils d'analyse adaptés. » 15 . Cela implique donc que l'on parle certes d'une grande quantité d'informations, mais également de la manière dont elles sont traitées et si des conclusions peuvent en être tirées.

Ceux qui s'intéressent au sujet s'attachent aussi à le définir en 5 points, ou plutôt en 5 V : volume, vitesse, variété, valeur et vérité. Permettant ainsi de comprendre les enjeux contemporains qui se posent à propos de la

14 Data Never Sleeps 10.0. (2022). DOMO. Consulté le 6 février 2024, à l'adresse https :// www.domo.com/data-never-sleeps

15 Commission générale de terminologie et de néologie Vocabulaire de l'informatique, mégadonnées (2014, août 22). Journal officiel de la République française, 89. Consulté le 10 février 2023, à l'adresse https://urlz.fr/pEXs

gestion de ces données. Pour commencer, le volume est ce qui a été évoqué plus haut, c'est la quantité entropique d'informations auxquelles nous faisons face aujourd'hui. Et l'on parle bien ici de données produites en continue et non en séquences que l'on pourrait déterminer et contrôler. « De surcroît, une très vaste majorité - peut-être de 95 à 98 % - des données issues d'Internet sont « bruyantes », c'est-à-dire non structurées et dynamiques plutôt que statiques et convenablement rangées. » 16 (Babinet. G, 2015) À cela s'ajoute donc la vitesse de création de ces données. Dans une logique de production continue, il nous est impossible de traiter l'ensemble des données en temps réel. De fait, il y a donc le risque qu'elles deviennent obsolètes de plus en plus rapidement, à cause de l'évolution technique des outils utilisés pour les décrypter. Et même s'il est théoriquement possible de le faire, il y a aussi le risque qu'elles basculent dans l'oubli, car elles n'ont pas été référencées. C'est pourquoi il devient nécessaire aujourd'hui d'utiliser ce qu'on appelle les métadonnées (traduit de l'anglais). « Les métadonnées peuvent être des informations sur un objet ou une ressource qui décrivent des caractéristiques telles que le contenu, la qualité, le format, l'emplacement et les informations de contact. Il peut décrire des éléments physiques ainsi que des éléments numériques (documents, fichiers audiovisuels, images, ensembles de données) et

16 Babinet, G. (2015). Big Data, penser l'homme et le monde autrement [Pombo.free]. Le Passeur éditeur. http :// pombo.free.fr/babinet2015.pdf

peut prendre des formes allant du texte libre (tel que des fichiers « Lisez-moi ») au contenu standardisé, structuré et lisible par une machine » ¹⁷. Ce travail de référencement est déjà assez fastidieux, mais est complexifié par la variété des supports que nous produisons. En effet, les données purement numériques comme le SMS ou la recherche sur un navigateur sont enrichies par la numérisation croissante de documents réels. Si l'on prend l'exemple du fond d'archives de la ville de Nantes consultable en ligne, dans la catégorie « archives numérisées », on remarque déjà plusieurs typologies de documents que l'on pourrait regrouper d'après leurs formes : Les photographies, les illustrations ainsi que les documents écrits. Ainsi, chaque catégorie requiert des métadonnées appropriées. Par exemple, pour les illustrations, la base de donnée possède un groupe d'archives nommé « carte et plans », dans lequel on retrouve des métadonnées qui leur sont propres, comme par exemple le critère de la technique utilisée (impression, aquarelle...). Mais dans l'ensemble, seuls quelques critères diffèrent d'une archive à une autre, principalement pour des questions de formes. Pour le reste, le minimum reste d'intégrer l'auteur et le contexte de création, qui sont d'ailleurs parfois directement intégrés dans le document. Cependant, il est toujours préférable d'être rigoureux

17 ARDC. (2022, 13 mai). Metadata. ARDC (Australian Research Data Commons). Consulté le 7 février 2024, à l'adresse https://ardc.edu.au/resource/ metadata/

dans la rédaction des métadonnées, car si le document est amené à disparaître ou à être illisible, dans ce cas-là, il ne restera plus rien de sa mémoire : « Les objets de la culture numérique contiennent potentiellement tout ce qu'il faut pour que la question de leur oubli (voulu ou redouté) soit intégrée dès le départ à leur mise en oeuvre, faisant de la thématique de l'oubli un élément central de la production » 18 (Cotte. D, 2020) Il reste ainsi deux dimensions que nous n'avons pas encore abordées : la valeur et la vérité, apparues plus récemment dans la définition du concept de Big Data. Elles sont liées et tentent de répondre à la même question : pourquoi s'intéresser à cette donnée plutôt qu'une autre ? C'est une question à laquelle une réponse économique est souvent apportée en estimant l'intérêt que peut apporter la connaissance de ces facteurs pour une entreprise. Dans ce cas, si des réseaux de données sont correctement analysés, cela peut permettre de prédire des tendances et d'agir en conséquence. Si nous revenons sur le principe de la préservation d'archives, ces facteurs sont tout aussi importants et se vérifient en fonction de la qualité d'écriture des métadonnées.

Nous avons donc une responsabilité sur la pérennité de nos objets numériques, et cela perdure bien au-delà de

18 Cotte, D. (2017). La culture numérique entre l'appréhension de l'oubli et la fabrication de la mémoire - K@iros. Kairos, 2(2). Consulté le 19 novembre 2023, à l'adresse, https://revues-msh.uca.fr/kairos/index.php?id=213

l'étape de leur création. Cependant, cela ne veut pas dire que nous devons tout mémoriser, comme nous l'avons vu précédemment en parlant de la construction de la mémoire collective. L'oubli est tout aussi important que la mémoire. Ainsi, malgré le phénomène démesuré du big data, il est possible pour chacun de faire valoir son droit à l'oubli comme le stipule l'article 17 du RGPD (Règlement général sur la protection des données) : « La personne concernée a le droit d'obtenir du responsable du traitement l'effacement, dans les meilleurs délais, des données à caractère personnel la concernant » ¹⁹. La question de la persistance des données d'une personne après sa mort fait aussi partie des choses prises en compte par certains acteurs du numérique. Facebook propose par exemple de transformer le compte d'une personne décédée en compte commémoratif, à la condition que la personne décédée ait désigné un « contact légataire » au préalable. Cette personne est ensuite la seule responsable du compte et peut choisir de le garder ou de le supprimer. Nous voyons avec cet exemple que nous devenons de plus en plus responsables de la gestion de nos données en ligne, car même après notre mort, il n'est pas dit que nos avatars virtuels disparaîtront avec nous automatiquement. Cette rigueur, nous devons aussi l'adopter dans le cas où nous souhaitons archiver des

19 CNIL. (2016, 23 mai). CHAPITRE III - Droits de la personne concernée. Consulté le 7 février 2024, à l'adresse https://www.cnil.fr/fr/reglement-europeen-protection-donnees/chapitre3#Article17

données et être sûr qu'elles puissent être retrouvées dans leur intégrité même quand nous ne serons plus là.

Pour cela, il existe plusieurs méthodes afin d'assurer la pérennité des données que l'on souhaite transmettre. Professeur en Sciences de l'information et de la communication, Dominique COTTE propose 3 caractéristiques à prendre en compte dans la constitution d'une mémoire numérique : la répétabilité, la granularité et la traçabilité ²⁰ (Cotte. D, 2020). La répétabilité consiste à s'assurer qu'une donnée archivée sera toujours lisible, « répétable » dans 10 ans. De ce fait, dès le stade de création, il faut penser au format dans lequel l'archive sera lue afin d'anticiper les problèmes que pourra poser sa lecture dans un futur plus ou moins proche. Par exemple, le site Internet Archives met à disposition un outil de recherche appelé « Wayback Machine » 21 permettant de consulter un réseau d'archives constitué de plus de 800 milliards de pages web. Cet outil permet ainsi de remonter l'histoire d'une page Web et de voir à quoi elle ressemblait, du moins jusqu'en 2001, l'archivage ayant réellement débuté à partir de cette année. Dans le cas où une archive serait malgré tout

20 Cotte, D. (2017). La culture numérique entre l'appréhension de l'oubli et la fabrication de la mémoire - K@iros. Kairos, 2(2). Consulté le 19 novembre 2023, à l'adresse, https://revues-msh.uca.fr/kairos/index.php?id=213

21 Internet Archives. (2001). Wayback Machine. Consulté le 8 février 2024, à l'adresse https://archive.org/

illisible, il est possible de la fragmenter afin de pouvoir la recomposer ensuite, ce qu'on appelle aussi la granularité de l'information. Dans le cas d'un album de musique par exemple, même si l'un des morceaux est corrompu, il reste malgré tout la possibilité que les autres fragments soient intacts. Également, grâce aux développements de logiciels supportés par l'intelligence artificielle, on pourrait facilement imaginer un outil permettant de reconstituer des archives manquantes en se basant sur des fragments appartenant au même contexte. C'est déjà ce que proposent les mécanismes d'autocomplétion, certains proposant justement de l'autocomplétion musicale ^22. Cependant, comme nous l'avons vu précédemment, afin de comprendre et de faire comprendre une archive, il est nécessaire d'assurer que les métadonnées à son égard soient bien renseignées, autrement dit qu'elle soit traçable. D'autant plus que la création de ces données se fait sur la base d'un recyclage constant, à la manière du téléphone arabe, il peut devenir difficile de retracer l'information depuis sa source originale. Si l'on reste sur l'analogie musicale, la technique du sampling ou d'échantillonnage consiste par exemple à récupérer une source sonore et à l'intégrer dans une nouvelle composition. Dépendamment de la manière dont l'échantillon est intégré, cela peut même lui donner davantage de visibilité. À titre d'exemple,

22 Freedman, D. (2017). TapCompose. TapCompose. Consulté le 8 février 2024, à l'adresse https://www.tapcompose.com/

plusieurs artistes appartenant au mouvement de la « french touch » ont fondé leur succès sur cette méthode, dont les Daft Punk, Justice, Cassius, etc.

L'expansion actuelle de ces technologies numériques démontre ainsi que nous devons rester vigilants et rigoureux dans notre manière de construire nos archives contemporaines. Un travail de tri aux échelles individuelles et collectives est nécessaire afin de transmettre des archives intègres et intelligibles pour les générations futures.

précédent sommaire suivant

Changeons ce systeme injuste, Soyez votre propre syndic

"Là où il n'y a pas d'espoir, nous devons l'inventer" Albert Camus