§2. Les techniques de pseudonymisation
Aussi appelées « techniques d'anonymisation
», le terme de pseudonymisation sera ici
préféré, l'anonymisation faisant référence
à un standard technico-juridique controversé.
2.1. Les techniques de randomisation
La randomisation vise à modifier les valeurs
réelles des données afin d'empêcher de retrouver les
valeurs originales248. Cette méthode est rendue possible par
deux techniques : le bruit et la permutation.
La permutation vise à intervertir plusieurs données
les unes par rapport aux autres.
Le bruit, ou protection différentielle, vise à
intégrer de façon aléatoire des « bruits
», c'est-à-dire des données
synthétiques249, dans un ensemble de données afin de
fournir une garantie mathématique que la présence de toute
personne dans cet ensemble sera masquée250. Cette technique a
été démontrée par C. Dwork251.
Aujourd'hui, des logiciels sont capables de mesurer le risque d'atteinte
à la vie privée et de déterminer le degré de bruit
adéquat252. Apple, utilise notamment la technique du
Differential privacy. Il s'agit d'ajouter un bruit aléatoire
à la
245 R. Sayaf, «Algebraic Approach to Data Protection
by Design for Data Subjects», IPEN Workshop Conférence
«State of the art' in data protection by design», 12 juin 2019, P. 11
et s.
246 G 29, Avis 05/2014 sur les Techniques d'anonymisation,
0829/14/FR WP216, 2014 p.33
247 The Cybersecurity hub, « types of
cryptography», Linkedin, février 2020
248 G 29, Avis 05/2014 sur les Techniques d'anonymisation,
0829/14/FR WP216, 2014 p.30
249 Deloitte Canada, « gagner sur tous les tableaux :
protéger la vie privée à l'heure de l'analytique
», p. 7
250 A. Cavoukian, D stewart, B. Dewitt, Gagner sur tous les
tableaux, op. cit.
251 C. Dwork, «Differential Privacy». In:
Bugliesi M., Preneel B., Sassone V., Wegener I. (eds) Automata, Languages and
Programming. ICALP 2006. Lecture Notes in Computer Science, vol 4052. Springer,
Berlin, Heidelberg, 2006
252 A. Cavoukian, D stewart, B. Dewitt, Gagner sur tous les
tableaux, op. cit.
- 45 -
Les moyens d'autorégulation adaptés à
l'intelligence artificielle
donnée253, et d'avoir un paramètre de
perte de niveau faible afin de garantir à la fois la valeur de la
donnée mais aussi de la protéger d'une éventuelle
attaque.
Dès 2014, le G29 rappelle que ces
procédés de randomisation ne permettent que de pseudonymiser des
données à caractère personnel : « Si la
pseudonymisation se fonde sur le remplacement d'une identité par un
autre code unique, il serait naïf de supposer qu'un tel
procédéì constitue une solution d'anonymisation
fiable, sans tenir compte de la complexité des méthodes
d'identification et des multiples contextes dans lesquels elles pourraient
être appliquées254 ». De plus, ces deux
techniques ne sont efficaces qu'en fonction de requêtes définies,
ce qui pose des difficultés à l'heure de l'open
data255.
2.2. Les techniques de généralisation
La généralisation, vise à remplacer
l'attribut d'une donnée par une catégorie plus grande. Par
exemple, si une base de données présente le nombre de personnes
par ville, on peut remplacer le critère de ville, par le critère
de pays. Cette technologie a vu le jour lorsque L. Sweeney a mis en
évidence les limites de la pseudonymisation du fait que 87% de la
population américaine pouvait être retrouvée à
partir de trois attributs, étant le code postal, le genre et la date de
naissance256. Néanmoins, « cette
généralisation supplémentaire s'opère au prix d'une
perte évidente et radicale d'information257 ».
Cette pratique permet toutefois de prévenir les attaques par
corrélation en évitant la granularité, c'est-à-dire
la possibilité d'isoler un individu à partir d'un attribut. Ce
processus peut être mis en place par les techniques de k-anonymat,
l-diversité, et de t-proximité.
Le k-anonymat est définit par le G29 comme «
une technique fondée sur la généralisation des
attributs qui vise à prévenir les attaques par corrélation
». Il s'agit en pratique de supprimer les attributs qui permettent de
ré identifier les personnes, appelés les attributs «
quasi-identifiants ». Pour anonymiser des données, il est
néanmoins nécessaire de supprimer des attributs
supplémentaires selon le G29. Cette technique permet de confondre un
individu au sein d'un groupe où tous les membres partagent les
mêmes caractéristiques et le rendre indistinguable.
253 C. duchesne-Jeanneney, G. Lallement, J. Serris, «
Accès aux données, consentement, l'impact du projet de
règlement e-privacy », CGE, 2018, P. 22, 23
254 G 29, Avis 05/2014 sur les Techniques d'anonymisation,
0829/14/FR WP216, 2014 p.35
255 Ibid., p.31
256 L. Sweeney, «k-anonymity: a model for protecting
privacy», International Journal on Uncertainty, Fuzziness and
Knowledge-based Systems, 10 (5), 2002; P. 557-570, P.2
257 G 29, Avis 05/2014 sur les Techniques d'anonymisation,
0829/14/FR WP216, 2014 p.37 et s.
- 46 -
Les moyens d'autorégulation adaptés à
l'intelligence artificielle
La l-diversité consiste à ajouter « une
contrainte supplémentaire (...), à savoir que chaque attribut
d'une classe d'équivalence apparaît à au moins à
« l » reprises, de telle sorte qu'un attaquant reste toujours
confronté à un degré d'incertitude considérable
concernant les attributs, malgré les connaissances tirées du
contexte dont il pourrait disposer à propos d'une personne
concernée. Cela revient à dire qu'un ensemble de données
(ou un segment) doit posséder un nombre minimal d'occurrences d'une
propriété sélectionnée: ce procédé
permet d'atténuer le risque de ré-identification258
».
Enfin la t-proximité ajoute un rempart
supplémentaire et fonctionne de la manière suivante : «
L'approche désignée par le terme
«t-proximité» prend en considération le cas particulier
des attributs qui sont distribués de manière inégale au
sein d'un segment ou qui ne présentent qu'un faible écart de
valeurs ou de contenus sémantiques. C'est une amélioration
supplémentaire de l'anonymisation par généralisation
consistant à organiser les données de façon à
créer des classes d'équivalence qui reflètent autant que
possible la distribution initiale des attributs dans l'ensemble de
données original259 ».
Néanmoins, le souci majeur des techniques de
généralisation réside dans le fait que la robustesse du
dispositif dépend du niveau d'information de
l'attaquant260.
Ainsi, le respect de la vie privée n'est envisageable
qu'au prix d'une autorégulation efficace et évolutive. La mise en
conformité nécessite d'adapter le risque aux
spécificités de l'intelligence artificielle et de se doter
d'outils permettant une protection réaliste des données à
caractère personnel.
Face aux limites d'application du RGPD
soulevées par l'utilisation de l'intelligence artificielle,
l'utilisation des principes éthiques s'avère indispensable pour
guider la collecte et le traitement des données à
caractère personnel. Le responsable du traitement doit donc les prendre
en compte dans le cadre de sa mise en conformité et élaborer des
outils adaptés à la spécificité de l'intelligence
artificielle, en restant vigilent à l'état de l'art.
258 G 29, Avis 05/2014 sur les Techniques d'anonymisation,
0829/14/FR WP216, 2014 p.39
259 Ibid., p.40
260 B. Nguyen, « Survey sur les techniques
d'anonymisation : Théorie et Pratique », Journée CERNA
sur l'Anonymisation, p.43
SECONDE PARTIE
Construire une intelligence artificielle conforme aux
principes de privacy by design et de privacy by
default
|
L'élaboration d'un régime de traitement par un
logiciel d'intelligence artificielle conforme à la protection des
données à caractère personnel requiert de définir
les règles de gouvernance des données et d'étudier les
précautions à prendre tout au long du cycle de vie de la
donnée (Titre 1).
Mais si un code algorithmique régule le traitement, il
doit être au service des citoyens et préserver de manière
efficace et effective les droits et les libertés
fondamentales261. Or, le code est le reflet de l'homme qui le
rédige. Il faut donc envisager un régime de demain où l'IA
pourra être développée conformément aux standards
européens et garantir effectivement les droits et libertés des
personnes. Cela n'est possible que par l'appropriation d'une
souveraineté numérique européenne et individuelle (Titre
2).
- 47 -
261 L. Godefroy, « Le code au service du droit »,
Recueil Dalloz, 2018, p.734
- 48 -
|