L'analyse d'impact relative à la protection des
données nécessite d'évaluer les risques en amont du
traitement (art. 35 RGPD). Néanmoins, cette analyse préalable au
traitement est insuffisante195. P. Pucheral, A. Rallet, F.
Rochelandet, Célia Zolynski, soulignent le « paradoxe du
privacy by design », du fait que ce principe impose une
réflexion en amont alors que les problèmes ne pourront être
détectés et traités qu'en aval du traitement. Par exemple,
les procédés d'anonymisation offrent des garanties mais ne
peuvent empêcher le risque résiduel de ré-identification.
De plus, il est difficile d'anticiper toutes les utilisations
ultérieures de ces données et d'ainsi mesurer leur risque. Avant
le développement des réseaux sociaux et que le cas
d'espèce ne survienne, il était difficile d'envisager le fait que
les employeurs puissent utiliser les informations des comptes Facebook de leurs
employés pour contester un arrêt maladie.
Dans cette perspective, le risque doit s'analyser à la
fois en amont et en aval, en mettant en place une veille
régulière pendant tout le cycle de vie de la donnée
réutilisée. Les ajustements
195 P. Pucheral, A. Rallet, F. Rochelandet, C. Zolynski, op.
cit., p.89-99
- 35 -
Les moyens d'autorégulation adaptés à
l'intelligence artificielle
en aval sont nécessaires pour préserver
l'équilibre entre protection et innovation. Pour préserver
à la fois la protection des données personnelles et leur
exploitation à des fins économiques, un ajustement ex-post
est requis. Ce compromis ne peut pas être effectué
ex-ante dans la mesure ou cet équilibre dépend de
l'utilisation, du type de données et du type d'usage des données,
qui sont des facteurs qui s'apprécient lors du traitement et non lors de
la collecte. P. Pucheral, A. Rallet, F. Rochelandet, Célia Zolynski
proposent une analyse196 intéressante pour encadrer les
pratiques d'open data et la collecte par les objets
connectés.
L'open data, en traitant des données
publiques, permet potentiellement d'obtenir des informations sur un individu
à partir de données publiques et permet ainsi la descente
d'informations. A l'inverse, les objets connectés favorisent une
remontée d'informations, obtenues à la source : l'individu.
Dès lors, on pourrait envisager le Principe de privacy by design
comme principe de prévention et le principe de privacy by
default comme principe de protection.
1.1. Le privacy by design comme principe de
prévention
Le principe de prévention est très utile dans
le cas de l'open data. On peut définir l'open data
comme une pratique visant à « ouvrir les bases de
données publiques à des fins de transparence démocratique
et d'innovation économique ou sociale, ces données étant
la source potentielle de nouveaux services. » Une donnée
publique est « une donnée communicable contenue dans un
document administratif ou, plus largement dans tout document détenu
(produit ou reçu) par une personne morale ou une personne privée
dans le cadre de l'exercice d'une mission de service public197
». La loi pour une république numérique198 et la
Directive du 20 juin 2019 relative à l'open data199
posent une obligation de rendre accessible certaines données publiques.
Il s'agit par exemple des données du nombre d'habitants de la
région PACA. Or, une donnée publique peut être une
donnée à caractère personnelle et donc être soumise
au RGPD. De plus, l'individu n'a pas de rôle actif dans le cadre d'un
traitement issu de l'open data. Le privacy by design agit
alors en tant que mécanisme de précaution pour empêcher
deux risques issus de la réutilisation des données.
Tout d'abord le « risque ex-ante »
consiste à éviter une exploitation préjudiciable des
données. Dans le cas d'un traitement d'open data, les
administrations ne sont pas toujours
196 Ibid., p.89-99
197 CNIL, CADA, « Guide pratique de la publication en
ligne et de la réutilisation des données publiques (« open
data ») », p.27
198 Loi n° 2016-1321 pour une République
numérique, 7 octobre 2016
199 Directive n° 2019/1024 du parlement européen
et du conseil concernant les données ouvertes et la réutilisation
des informations du secteur public, 20 juin 2019
- 36 -
Les moyens d'autorégulation adaptés à
l'intelligence artificielle
préparées à l'ouverture des
données et ne prévoient pas les mesures techniques et
opérationnelles adaptées. Par exemple, les données du
nombre d'habitants de la région PACA ont été
anonymisées pour un usage statistique mais ces mesures n'ont pas
anticipé une réutilisation de ces informations à des fins
de profilage. Les données anonymes peuvent être exposées
à ce risque. En effet, les auteurs considèrent qu'une technique
d'anonymisation n'est efficace que lorsqu'elle a pour but d'atteindre un
objectif défini, par conséquent une approche globale est donc
impossible. Dans cet exemple, les données de genre des habitants de la
région PACA, croisées avec les données des lecteurs du
journal La Provence, permettent d'avoir un indice géographique sur le
nombre de femmes par ville et d'effectuer un ciblage des lectrices.
Par ailleurs, un « risque ex-post »
existe. Il consiste en la possibilité de ré-identifier des
données soit par un croisement de bases soit par l'évolution des
méthodes de traitement. Face à l'open data, il est
difficile pour les responsables du traitement de mesurer l'ampleur du risque de
ré-identification et la nécessité ou non d'adopter un
comportement de prévention optimal.