WOW !! MUCH LOVE ! SO WORLD PEACE !
Fond bitcoin pour l'amélioration du site: 1memzGeKS7CB3ECNkzSn2qHwxU6NZoJ8o
  Dogecoin (tips/pourboires): DCLoo9Dd4qECqpMLurdgGnaoqbftj16Nvp


Home | Publier un mémoire | Une page au hasard

 > 

Intelligence artificielle et mise en oeuvre des principes de privacy by design et privacy by default


par Julie Morin Richard
Ulco - Master 2 Droit des affaires 2020
  

précédent sommaire suivant

Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy

§2. Les techniques de pseudonymisation

Aussi appelées « techniques d'anonymisation », le terme de pseudonymisation sera ici préféré, l'anonymisation faisant référence à un standard technico-juridique controversé.

2.1. Les techniques de randomisation

La randomisation vise à modifier les valeurs réelles des données afin d'empêcher de retrouver les valeurs originales248. Cette méthode est rendue possible par deux techniques : le bruit et la permutation.

La permutation vise à intervertir plusieurs données les unes par rapport aux autres.

Le bruit, ou protection différentielle, vise à intégrer de façon aléatoire des « bruits », c'est-à-dire des données synthétiques249, dans un ensemble de données afin de fournir une garantie mathématique que la présence de toute personne dans cet ensemble sera masquée250. Cette technique a été démontrée par C. Dwork251. Aujourd'hui, des logiciels sont capables de mesurer le risque d'atteinte à la vie privée et de déterminer le degré de bruit adéquat252. Apple, utilise notamment la technique du Differential privacy. Il s'agit d'ajouter un bruit aléatoire à la

245 R. Sayaf, «Algebraic Approach to Data Protection by Design for Data Subjects», IPEN Workshop Conférence «State of the art' in data protection by design», 12 juin 2019, P. 11 et s.

246 G 29, Avis 05/2014 sur les Techniques d'anonymisation, 0829/14/FR WP216, 2014 p.33

247 The Cybersecurity hub, « types of cryptography», Linkedin, février 2020

248 G 29, Avis 05/2014 sur les Techniques d'anonymisation, 0829/14/FR WP216, 2014 p.30

249 Deloitte Canada, « gagner sur tous les tableaux : protéger la vie privée à l'heure de l'analytique », p. 7

250 A. Cavoukian, D stewart, B. Dewitt, Gagner sur tous les tableaux, op. cit.

251 C. Dwork, «Differential Privacy». In: Bugliesi M., Preneel B., Sassone V., Wegener I. (eds) Automata, Languages and Programming. ICALP 2006. Lecture Notes in Computer Science, vol 4052. Springer, Berlin, Heidelberg, 2006

252 A. Cavoukian, D stewart, B. Dewitt, Gagner sur tous les tableaux, op. cit.

- 45 -

Les moyens d'autorégulation adaptés à l'intelligence artificielle

donnée253, et d'avoir un paramètre de perte de niveau faible afin de garantir à la fois la valeur de la donnée mais aussi de la protéger d'une éventuelle attaque.

Dès 2014, le G29 rappelle que ces procédés de randomisation ne permettent que de pseudonymiser des données à caractère personnel : « Si la pseudonymisation se fonde sur le remplacement d'une identité par un autre code unique, il serait naïf de supposer qu'un tel procédéì constitue une solution d'anonymisation fiable, sans tenir compte de la complexité des méthodes d'identification et des multiples contextes dans lesquels elles pourraient être appliquées254 ». De plus, ces deux techniques ne sont efficaces qu'en fonction de requêtes définies, ce qui pose des difficultés à l'heure de l'open data255.

2.2. Les techniques de généralisation

La généralisation, vise à remplacer l'attribut d'une donnée par une catégorie plus grande. Par exemple, si une base de données présente le nombre de personnes par ville, on peut remplacer le critère de ville, par le critère de pays. Cette technologie a vu le jour lorsque L. Sweeney a mis en évidence les limites de la pseudonymisation du fait que 87% de la population américaine pouvait être retrouvée à partir de trois attributs, étant le code postal, le genre et la date de naissance256. Néanmoins, « cette généralisation supplémentaire s'opère au prix d'une perte évidente et radicale d'information257 ». Cette pratique permet toutefois de prévenir les attaques par corrélation en évitant la granularité, c'est-à-dire la possibilité d'isoler un individu à partir d'un attribut. Ce processus peut être mis en place par les techniques de k-anonymat, l-diversité, et de t-proximité.

Le k-anonymat est définit par le G29 comme « une technique fondée sur la généralisation des attributs qui vise à prévenir les attaques par corrélation ». Il s'agit en pratique de supprimer les attributs qui permettent de ré identifier les personnes, appelés les attributs « quasi-identifiants ». Pour anonymiser des données, il est néanmoins nécessaire de supprimer des attributs supplémentaires selon le G29. Cette technique permet de confondre un individu au sein d'un groupe où tous les membres partagent les mêmes caractéristiques et le rendre indistinguable.

253 C. duchesne-Jeanneney, G. Lallement, J. Serris, « Accès aux données, consentement, l'impact du projet de règlement e-privacy », CGE, 2018, P. 22, 23

254 G 29, Avis 05/2014 sur les Techniques d'anonymisation, 0829/14/FR WP216, 2014 p.35

255 Ibid., p.31

256 L. Sweeney, «k-anonymity: a model for protecting privacy», International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002; P. 557-570, P.2

257 G 29, Avis 05/2014 sur les Techniques d'anonymisation, 0829/14/FR WP216, 2014 p.37 et s.

- 46 -

Les moyens d'autorégulation adaptés à l'intelligence artificielle

La l-diversité consiste à ajouter « une contrainte supplémentaire (...), à savoir que chaque attribut d'une classe d'équivalence apparaît à au moins à « l » reprises, de telle sorte qu'un attaquant reste toujours confronté à un degré d'incertitude considérable concernant les attributs, malgré les connaissances tirées du contexte dont il pourrait disposer à propos d'une personne concernée. Cela revient à dire qu'un ensemble de données (ou un segment) doit posséder un nombre minimal d'occurrences d'une propriété sélectionnée: ce procédé permet d'atténuer le risque de ré-identification258 ».

Enfin la t-proximité ajoute un rempart supplémentaire et fonctionne de la manière suivante : « L'approche désignée par le terme «t-proximité» prend en considération le cas particulier des attributs qui sont distribués de manière inégale au sein d'un segment ou qui ne présentent qu'un faible écart de valeurs ou de contenus sémantiques. C'est une amélioration supplémentaire de l'anonymisation par généralisation consistant à organiser les données de façon à créer des classes d'équivalence qui reflètent autant que possible la distribution initiale des attributs dans l'ensemble de données original259 ».

Néanmoins, le souci majeur des techniques de généralisation réside dans le fait que la robustesse du dispositif dépend du niveau d'information de l'attaquant260.

Ainsi, le respect de la vie privée n'est envisageable qu'au prix d'une autorégulation efficace et évolutive. La mise en conformité nécessite d'adapter le risque aux spécificités de l'intelligence artificielle et de se doter d'outils permettant une protection réaliste des données à caractère personnel.

Face aux limites d'application du RGPD soulevées par l'utilisation de l'intelligence artificielle, l'utilisation des principes éthiques s'avère indispensable pour guider la collecte et le traitement des données à caractère personnel. Le responsable du traitement doit donc les prendre en compte dans le cadre de sa mise en conformité et élaborer des outils adaptés à la spécificité de l'intelligence artificielle, en restant vigilent à l'état de l'art.

258 G 29, Avis 05/2014 sur les Techniques d'anonymisation, 0829/14/FR WP216, 2014 p.39

259 Ibid., p.40

260 B. Nguyen, « Survey sur les techniques d'anonymisation : Théorie et Pratique », Journée CERNA sur l'Anonymisation, p.43

SECONDE PARTIE

Construire une intelligence artificielle conforme aux principes de
privacy by design et de privacy by default

L'élaboration d'un régime de traitement par un logiciel d'intelligence artificielle conforme à la protection des données à caractère personnel requiert de définir les règles de gouvernance des données et d'étudier les précautions à prendre tout au long du cycle de vie de la donnée (Titre 1).

Mais si un code algorithmique régule le traitement, il doit être au service des citoyens et préserver de manière efficace et effective les droits et les libertés fondamentales261. Or, le code est le reflet de l'homme qui le rédige. Il faut donc envisager un régime de demain où l'IA pourra être développée conformément aux standards européens et garantir effectivement les droits et libertés des personnes. Cela n'est possible que par l'appropriation d'une souveraineté numérique européenne et individuelle (Titre 2).

- 47 -

261 L. Godefroy, « Le code au service du droit », Recueil Dalloz, 2018, p.734

- 48 -

précédent sommaire suivant






Bitcoin is a swarm of cyber hornets serving the goddess of wisdom, feeding on the fire of truth, exponentially growing ever smarter, faster, and stronger behind a wall of encrypted energy








"Et il n'est rien de plus beau que l'instant qui précède le voyage, l'instant ou l'horizon de demain vient nous rendre visite et nous dire ses promesses"   Milan Kundera