Les défis d’une valorisation des données conformes à la RGPD

Les défis d’une valorisation des données conformes à la RGPD

RGPD et politique de la donnée d'intérêt territorial
RGPD et politique de la donnée d'intérêt territorial
L’utilisation abusive à des fins commerciales, des données personnelles des utilisateurs par les géants du web, a poussé le législateur européen à rendre applicable un Règlement Général sur la Protection des Données à caractère personnel en mai 2018. Dans la continuité de la loi informatique et liberté de 1978, il élargit les droits des personnes concernées pour rectifier, accéder et transférer leurs données, en appuyant sur l’importance du consentement libre éclairé préalable à tout traitement. Il impose également aux responsables de traitements (qui collectent et hébergent les données) la connaissance fine au travers d’un registre, de l’ensemble des opérations qui sont effectuées sur ces données, et de les limiter à la zone UE. A partir d’une certaine taille d’organisation, un DPO (Data Protection Officer), équivalent du CIL (Correspondant informatique et Liberté) doit être nommé pour être le garant du respect de cette réglementation européenne. Les notions de privacy by default et privacy by design, résument l’esprit et la lettre de cette réglementation ayant pour vocation de faire entrer les acteurs dans un traitement raisonné et motivé des données à caractère personnel.
En tant que fournisseur de services publics, les administrations n’échappent pas à cette législation. Voici deux défis qui devront être relevés pour valoriser les données d’intérêt territorial en conformité avec la législation :
  • La connaissance de son patrimoine de données
  • Industrialiser les processus de sécurisation des données

La cartographie des données

Inventorier le patrimoine de données dont elle dispose est pour une administration une étape structurante dans le processus de gouvernance. Tout d’abord pour s’assurer que le cadre juridique de la RGPD est respecté : catégorisation des données par sensibilité, inventaire des traitements, habilitation des agents selon les traitements et les finalités, recensement des flux (reporting, interfaces entre les applications…), délais d’archivage, délais d’anonymisation, etc.
La cartographie des données offre également à l’administrateur local de données (Chief Data Officer) une vision claire des données internes disponible pour porter les cas d’usages à adresser dans le cadre des politiques publiques à mener sur le territoire.
Voyons à présent les différentes modalités d’exécution de cette mission.

Projet de cartographie ou cartographie dans le projet ?

Avant de se livrer à cet exercice fastidieux, il faudra choisir sur quel périmètre mener le processus exploratoire. Ici deux écoles s’affrontent : les uns prônent un recensement exhaustif des données sur l’ensemble des services de l’administration, d’autres un ciblage de découverte restreint tiré par un ou des cas d’usages. Les retours d’expériences d’un certain nombre d’acteurs publics, montrent que la seconde façon semble être la plus appropriée pour la majorité des organisations qui entament la structuration de leurs processus data. Tout d’abord, le fait d’orienter la manœuvre vers une finalité métier améliorera la qualité de l’aide apportée par les services dans la signification et le catalogage de leurs données. Ils auront été impliqués dès le début de la démarche, et n’auront pas simplement reçu des instructions les encourageant à se mettre à disposition de la DSI sans y voir un intérêt pour eux. Deuxièmement, les équipes en charge d’inventorier seront moins sujets au découragement, compréhensible face à l’ampleur d’une cartographie exhaustive. La démarche par cas d’usage s’intègrera dans une logique projet, que l’on insérera plus aisément dans l’emploi du temps des agents de la DSI. Enfin cette approche se marie bien avec l’esprit de la RGPD, qui encourage les administrations à s’inscrire dans un processus continuel et industrialisé de maîtrise de leur écosystème informationnel.
Expérience cartographie exhaustive : En 2016, le Commissariat Général à l’Ecologie et au Développement Durable se voyait commander par le ministère de l’Environnement, de l’Energie et de la Mer, une cartographie complète des données du ministère. Dans un délai de quatre mois, l’ensemble des données produites, détenues, possédées ou opérées par le ministère, les opérateurs et établissements publics ainsi que les délégataires de services publics devaient être inventoriées. Il ressort du résumé du rapport que le périmètre global n’a pu être traité en profondeur (notamment les collectivités territoriales et les opérateurs), le temps imparti étant beaucoup trop court. De plus, le questionnaire adressé aux différents responsables ne permettait pas de recueillir le détail des données métiers stockées au sein des bases et fichiers recensés. L’impact positif de la mission s’est donc plus révélé en termes de compréhension pour le ministère de la maturité des différents acteurs dont il a la tutelle.
Expérience cartographie ciblée : Dans le cadre de son projet de Mobility as a Service (MaaS), Nantes Métropole a cartographié en 2020 ses données mobilités avec l’aide d’un cabinet de conseil. Cette mission a conduit à une meilleure compréhension des services de la mobilité et de leurs interdépendances, permettant au passage d’émettre des recommandations quant à l’amélioration de l’organisation.

Se lancer dans le catalogage des données

Quel que soit le périmètre d’inventaire retenu, il faudra choisir une méthodologie d’exploration. Celle-ci peut se décomposer de la manière suivante :
  1. Interview des membres des services et opérateurs de service public afin qu’ils communiquent, sur la base des processus métier, les données qui sont traitées et échangée.
  2. Analyse des fichiers et bases de données précédemment recensés, afin de contextualiser et catégoriser les informations qui y sont présentes
Ce processus exploratoire peut être porté par un outil de catalogage de données qui permettra d’automatiser un certain nombre de tâches, comme la collecte des structures de base de données, voir l’association entre des données de références présentes dans des sources différentes. Il permettra d’industrialiser dans le temps la maintenance de cet inventaire en explorant régulièrement l’ensemble des sources qui lui ont été déclarées.
Gouvernance : un référent data peut-être nommé dans chaque service. Il sera l’interlocuteur privilégié du responsable du catalogue de données (appelée aussi Data Steward), et l’aidera dans la signification métier des données.
Juridique : le processus exploratoire est considéré comme un traitement des données, notamment lorsque celui-ci nécessite d’analyser des échantillons afin de les catégoriser. Afin d’être en conformité avec la RGPD, ces découvertes devront être effectuées par ou avec les personnes habilitées à consulter les données à caractère personnel. Ces analyses sont nécessaires lorsque les éditeurs de logiciel n’offrent pas d’interfaces documentées des logiciels qu’ils commercialisent (API). Il est donc conseillé aux administrations, à chaque renouvellement de marché avec un éditeur ou un DSP responsable de traitement, d’inclure des clauses d’interface et de réversibilité des données (voir guide des bonnes pratiques contractuelles publié par la banque des territoires).
Industrialisation catalogage et registre des traitement

Industrialiser les processus de sécurisation des données

La réglementation européenne de protection des données à caractère personnel impose aux organisations de lister dans un registre l’ensemble des traitements effectués sur leur système d’information. Cette contrainte est impossible à respecter si le processus de déclaration de traitement dans le registre n’est pas industrialisé.
Solution : BigID ou OneTrust proposent des solutions unifiées de gestion de conformité à la RGPD. Elles permettent notamment l’exploration de données stockées dans différentes plateformes locales ou cloud (SGBD relationnels, écosystème Hadoop, MongoDB) pour automatiser la construction et la maintenance du registre des traitements, avec l’aide de l’intelligence artificielle. En plus de leur module d’analyses d’impact relatives à la protection des données (PIA), elles offrent également un portail de demande de droits pour les personnes concernées, afin d’industrialiser le suivi et l’exécution des requêtes.
De plus, la RGPD impose que l’accès aux données personnelles soit strictement limités aux personnes habilitées. L’ensemble des systèmes de données permettent d’attribuer des droits d’accès et de modification sur les données par utilisateur ou groupe d’utilisateur (Rôle Base Access Control – RBAC). De la même manière, la réglementation n’est respectée que si la donnée est sécurisée tout au long de son cycle de vie, à savoir au fur et à mesure qu’elle est enrichie, croisée, filtrée. Il est dès lors impératif d’avoir un système automatisé capable de propagée les règles d’accès d’une donnée au fur et à mesure de ses transformations, car il est impossible manuellement et durablement, de réaffecter des règles d’accès aux mêmes données à chaque fois qu’elles subissent une modification.
Solution : Dans un écosystème big data Hadoop, le système de lineage de données Apache Atlas, couplé au système de sécurité Apache Ranger, permet la propagation des règles d’accès tout au long du cycle de vie de la donnée.

Conclusion

L’article introduisant les données d’intérêt territorial nous a donné un aperçu de l’impressionnante quantité de donnée traitées par les administrations dans le cadre de leurs compétences. Les dynamiques croissantes de valorisation et de partage de ces données vont décupler ce phénomène. Les établissements publics n’ont donc d’autre choix que de s’outiller afin d’industrialiser et d’automatiser les processus qui s’articulent autour de la réglementation, sans quoi leurs ambitions de modernisation de l’action public par la donnée seront incompatibles avec leur capacité opérationnelle à être et à rester en conformité.