Suite

Anonymiser les adresses postales ?

Anonymiser les adresses postales ?


Je veux créer une archive du courrier que je reçois et envoie. Une partie de mon objectif est de fournir des statistiques publiques sur ces archives, comme une carte du monde avec une épingle pour chaque endroit où j'ai envoyé ou reçu du courrier. Afin de protéger l'identité de ceux dont je reçois et envoie du courrier, je souhaite anonymiser les adresses. C'est-à-dire qu'au lieu de pointer vers l'adresse exacte à laquelle le courrier est allé, l'épingle doit être placée sur la région générale dans laquelle se trouve l'adresse. Cette région doit suivre les divisions administratives afin que les gens aient une idée de l'endroit où le courrier est allé.

Le mot «région» est intentionnellement flou car je ne sais pas ce que devraient être ces régions. L'assimilation des régions aux pays est grossière pour les statistiques que je voudrais fournir. J'ai pensé à utiliser les codes ISO 3166-2 pour les régions, ce qui présente l'avantage d'une représentation textuelle standardisée et courte, mais je n'ai pas encore trouvé de jeu de données résolvant les codes ISO 3166-2 en coordonnées.

Par exemple, lorsque j'envoie un courrier à Deutscher Bundestag, Platz der Republik 1, 11011 Berlin, Allemagne, une adresse anonymisée pourrait ressembler à ceci, de fine à grossière :

  • 11011 Berlin, Allemagne
  • Mitte, Berlin, Allemagne
  • Berlin, Allemagne / DE-BE
  • Allemagne

Existe-t-il un ensemble gratuit de points de données que je pourrais utiliser pour ces adresses anonymisées ? L'ensemble de données doit contenir pour chaque région :

  • Le nom anglais ou local de la région
  • Une paire de coordonnées au centre de la région
  • éventuellement une courte représentation textuelle unique de la région

Il devrait être évident pour un tiers de quelle région il s'agit lorsqu'il est fourni avec le nom.


Ce dont vous avez besoin, c'est d'un service de géocodage comme nominatim. Il classe les données en fonction du niveau d'administration afin que vous puissiez choisir le niveau jusqu'à lequel vous pouvez anonymiser.

Le service est gratuit et les données sont sous licence de base de données ouverte afin que vous puissiez l'utiliser comme vous le souhaitez. selon les lieux des noms locaux sont également disponibles. .


À tout le moins, vous voulez supprimer l'EUI-64, c'est-à-dire les 64 derniers bits de l'adresse. de manière plus réaliste, vous voulez en dépouiller beaucoup plus pour être vraiment privé, car la partie restante n'identifiera toujours qu'un seul sous-réseau (c'est-à-dire une maison éventuellement)

L'adressage global IPv6 est très hiérarchisé, à partir de la RFC2374 :

La question devient à quel point le privé est-il suffisamment privé ? Supprimez 64 bits et vous avez identifié un sous-réseau LAN, pas un utilisateur. Enlevez-en 16 autres et vous avez identifié une petite organisation, c'est-à-dire un client d'un FAI, par ex. entreprise/succursale avec plusieurs sous-réseaux. Supprimez les 24 suivants et vous avez essentiellement identifié un FAI ou une très grande organisation uniquement.

Vous pouvez implémenter cela avec un masque de bits exactement comme vous le feriez pour une adresse IPv4, la question devient cependant juridique de "combien dois-je dépouiller pour me conformer à la législation spécifique", pas technique à ce stade cependant.


Pourquoi l'activation du "aip« matière de paramètre ?

Si l'on suppose que Google est un processeur de données de bonne foi qui respecte le paramètre de demande d'anonymisation de l'adresse IP, alors il y a plusieurs raisons pour lesquelles l'utilisation de ce paramètre peut être importante.

La première raison est une question de responsabilité légale et de conformité réglementaire. Les adresses IP des utilisateurs peuvent être classées en tant que « données personnelles » ou « Informations personnelles identifiables » (PII) par divers cadres juridiques de confidentialité, tels que le RGPD de l'UE, le CCPA de la Californie et le LGPD du Brésil. Si un site Web partage des données personnelles avec des tiers tels que Google, cela peut déclencher des exigences réglementaires et de conformité supplémentaires. Plusieurs sources ont noté que l'anonymisation de l'adresse IP peut être une exigence pour se conformer au RGPD. En 2016, la Cour européenne de justice a examiné la Breyer affaire, dans laquelle la Cour a statué que "les adresses IP peuvent être des données personnelles même si des informations peuvent devoir être recherchées auprès de tiers pour identifier les sujets."

La propre documentation de Google suggère l'utilisation de divers contrôles de confidentialité si un site Web peut être réglementé par le RGPD ou le CCPA. Les conditions d'utilisation de Google Analytics stipulent de manière quelque peu ironique que les propriétaires de sites Web "n'aideront ni n'autoriseront aucun tiers à transmettre à Google des informations que Google pourrait utiliser ou reconnaître comme des informations personnellement identifiables".

La seconde est une question d'action punitive potentielle. Le GDPR Enforcement Tracker comprend 498 exemples d'amendes infligées en vertu du GDPR par diverses autorités de protection des données de l'Union européenne. Certains d'entre eux ont été émis pour "Non-conformité aux principes généraux du traitement des données" ou "Exécution insuffisante des droits des personnes concernées". Une poignée de ces amendes a coûté des dizaines de millions d'euros. Google lui-même fait actuellement l'objet d'un recours collectif en Californie concernant l'utilisation d'outils tels que Google Analytics pour suivre les utilisateurs, même lorsqu'ils sont passés en "mode navigation privée" sur leurs navigateurs.

La troisième raison est une simple question de confiance des consommateurs. Robin Berjon, vice-président de la gouvernance des données au New York Times (NYT), a écrit en juillet que "la vie privée est une question de confiance" et "la confiance de nos lecteurs est essentielle." Berjon note que les lecteurs " 34sont extrêmement mécontents du partage de données avec des tiers qui peuvent utiliser les données à des fins totalement différentes."

Les consommateurs peuvent perdre confiance dans des institutions comme la Mayo Clinic s'ils découvrent que leurs habitudes de navigation, leur géolocalisation et les empreintes digitales de leurs appareils sont relayés par ces organisations directement à Google sans aucune anonymisation.


Lorsque vous avez besoin d'un anonymat (presque) complet conforme à la HIPAA des patients et des données, vous devez effectuer beaucoup de nettoyage dans la base de données sous-jacente.

Ce script sql archive:anonymizing brouillera les noms de vos patients, leurs adresses, leurs emplacements et toutes les dates stockées pour les patients. Les noms d'utilisateur et les mots de passe seront réinitialisés à username-"id"/test.

Ne l'exécutez pas sur une base de données en direct. Ne l'exécutez que sur une copie. Il est impossible de récupérer des données précises.

Cette anonymisation peut ne pas être entièrement conforme à la loi HIPAA. Il est très difficile de vraiment anonymiser (anonymiser) les données de telle sorte que quelqu'un ne puisse pas ré-identifier un patient. Les gens (et un nombre croissant d'outils) peuvent trouver des moyens intelligents de découvrir des identités à partir de données soi-disant anonymes. Tout texte libre (commentaires sur des observations, observations avec des valeurs textuelles ou tout texte saisi par l'utilisateur n'importe où ailleurs dans la base de données) pourrait accidentellement révéler l'identité d'un patient. Dans la mesure du possible, évitez de partager publiquement les données des patients (même si vous pensez les avoir anonymisées). Si vous voulez/avez besoin de partager des données publiquement, soyez extrêmement vigilant pour vous assurer que les données sont vraiment anonymisées.

Idéalement, toutes les informations de santé protégées devraient être anonymisées, y compris :


Modèles de confidentialité

Maintenant que nous savons quelles approches peuvent être utilisées pour anonymiser certains types d'attributs, nous devons choisir le modèle de confidentialité le plus approprié à notre situation et déterminer la technique susmentionnée que nous utilisons pour la mettre en œuvre.

La première chose qui devrait venir à l'esprit lors du choix d'un modèle de confidentialité est notre objectif, qui est d'atténuer les risques de divulgation. C'est pourquoi nous devons choisir au moins un modèle qui combat la divulgation d'identité et un autre qui combat la divulgation d'attributs. Certains modèles de confidentialité sont décrits ci-dessous.

K-anonymat

Le k-anonymat est un modèle de confidentialité populaire utilisé pour atténuer le risque de divulgation d'identité. Elle est parfois considérée comme satisfaisant à l'exigence minimale pour limiter le risque de divulgation, et est ensuite complétée par une protection contre la divulgation d'attributs.

L'idée générale est de générer des groupes au sein de l'ensemble de données, où chaque groupe contient au moins k enregistrements et les enregistrements d'un groupe partagent la même valeur pour chaque quasi-identifiant. En d'autres termes, au sein d'un groupe, les enregistrements sont indiscernables les uns des autres. Cette condition fait que la probabilité de ré-identifier un individu dans l'ensemble de données anonymisé est de 1/k au plus. Chaque groupe est considéré comme un classe d'équivalence, et on dit qu'un ensemble de données possède la propriété de k-anonymat si chaque classe d'équivalence a au moins k enregistrements.

Ce modèle peut être mis en œuvre en utilisant diverses approches, y compris la généralisation et la micro-agrégation.

Le plus grand défi consiste à déterminer la valeur de la k paramètre, car aucune heuristique n'est connue pour définir automatiquement cette valeur dans un contexte spécifique.

k-Map est un ami très proche du k-anonymat. La principale différence réside dans le fait que le k-Le modèle de carte est capable de prendre en compte un autre ensemble de données, en plus de celui d'origine, afin de respecter l'exigence de confidentialité.

Au-delà du défi de choisir la bonne valeur pour le k paramètre, k-La carte fait face à un autre problème majeur : comment trouver ou construire l'ensemble de données étendu.

Une limitation de ce modèle est qu'il suppose qu'un intrus ne traite que les informations fournies par l'ensemble de données anonymisé sans accès à des sources externes fournissant des données supplémentaires pouvant être utilisées à des fins de ré-identification.

-Diversité

Ce modèle est une extension du k-anonymat et il a été conçu pour gérer certaines de ses faiblesses.

Le modèle de la ℓ-diversité repose sur le principe que protéger les identités au niveau des k-individus n'équivaut pas à protéger les valeurs confidentielles correspondantes. C'est pourquoi il tente d'atténuer le risque de divulgation d'attributs en veillant à ce que chaque attribut confidentiel présente au moins ℓ valeurs « bien représentées » au sein de chaque classe d'équivalence (la définition du modèle est vague dans le sens où elle ne spécifie pas le sens de « bien- valeurs représentées).

Outre la définition paresseuse, un autre défi à surmonter est la sélection appropriée du paramètre ℓ.

T-Proximité

Comme ℓ-Diversity, t-Closeness protège contre le risque de divulgation d'attributs. Il exige que la distance entre la distribution d'un attribut confidentiel dans chaque classe d'équivalence et la distribution de l'attribut dans l'ensemble de données ne dépasse pas une valeur seuil de t.

Les enjeux de ce modèle sont la définition de la notion de distance à utiliser et le choix du paramètre t.

Confidentialité différentielle

La confidentialité différentielle est un modèle qui est devenu très populaire en raison des solides garanties de confidentialité qu'il offre. Il est couramment utilisé dans les bases de données interrogeables, mais il peut parfois être appliqué à un ensemble de microdonnées.

Le principe sous-jacent à la confidentialité différentielle est que la présence ou l'absence d'un seul enregistrement individuel dans la base de données ou l'ensemble de données doit être imperceptible lorsque l'on examine les réponses renvoyées par les requêtes.

L'hypothèse est que les algorithmes d'anonymisation se situent entre l'utilisateur soumettant des requêtes et la base de données qui y répond. Ces algorithmes reposent sur l'incorporation de bruit aléatoire dans le mix afin que tout ce qu'un utilisateur reçoit devienne bruyant et imprécis. Ainsi, il est beaucoup plus difficile de commettre une violation de la vie privée.

Parfois, la confidentialité différentielle n'est pas considérée comme un modèle de confidentialité en soi, mais comme un résultat réel du processus d'anonymisation.

Autres modèles de confidentialité

D'autres modèles de confidentialité connus sont l'unicité de la population, la confidentialité δ-Disclosure, la -ressemblance, la -présence et la rentabilité. Il convient de mentionner que la plupart des modèles de confidentialité présentent des variantes pour des applications spécifiques dans des contextes spécifiques ou pour certaines caractéristiques de l'ensemble de données d'origine.

Pour plus d'informations sur les modèles et les techniques de confidentialité, vous pouvez vous référer aux documents SDC ou ARX.


2 réponses 2

Pour autant que je sache, l'anonymisation du texte est principalement considérée comme une étape de pré-traitement manuel, je ne connais aucune méthode fiable entièrement automatisée. La fiabilité du processus est généralement cruciale pour des raisons juridiques et éthiques, c'est pourquoi il doit y avoir une certaine quantité de travail manuel.

Cela étant dit, le processus peut être effectué de manière semi-automatique, surtout si la portée des informations à masquer n'est pas trop grande. Dans votre cas, un tagueur NE pourrait probablement être appliqué pour capturer une grande partie des entités.

Une fois que toutes les entités ont été annotées dans les données d'origine, il est simple de les remplacer automatiquement par un espace réservé. Cela peut être fait tout en conservant la version originale et anonymisée alignée (généralement en utilisant un identifiant unique pour chaque entité).


Configuration de NGINX pour la conformité GDPR (= RGPD, DSGVO) à l'aide d'adresses IP anonymisées sur des fichiers journaux plus anciens

L'Européen Règlement général sur la protection des données La loi (RGPD) vise à protéger la vie privée des utilisateurs finaux. Parmi de nombreuses autres conséquences, les administrateurs système sont donc obligés de configurer leurs systèmes de manière à ne pas stocker les adresses IP pendant de longues périodes inutiles, non sans consentement, etc. En effet, les adresses IP sont considérées comme des données personnelles.

Néanmoins, il y a de bonnes raisons – conformément au RGPD – pour ne pas anonymiser les adresses IP dès le début. Par exemple, il faut des moyens pour protéger un système contre les attaques (par exemple afin de protéger les données personnelles de nombreux utilisateurs dans la base de données). Par exemple, si votre système est actuellement attaqué et que cette attaque provient d'une adresse IP particulière, vous devez pouvoir bloquer cette IP (probablement seulement temporairement). Vous pouvez également vouloir vérifier quand l'attaque a commencé, c'est-à-dire quand ces mauvaises requêtes de cette IP ont commencé. De plus, vous souhaitez souvent conserver vos fichiers journaux plus longtemps afin de pouvoir les analyser (ce qui est parfaitement acceptable s'ils ne contiennent pas de données personnelles).

Ce sont donc des intérêts concurrents. Un compromis simple consiste à stocker les adresses IP d'origine dans les fichiers journaux pendant une courte période de temps, à anonymiser les adresses IP dans les anciens fichiers journaux et, bien sûr, à informer vos utilisateurs/visiteurs de ces faits (dans vos sites Web avis de confidentialité).


L'anonymisation des adresses IP, des noms d'hôtes, des noms d'entreprise et d'autres informations personnelles doit-elle être encouragée ? [dupliquer]

Ne pas choisir une question en particulier, mais j'ai remarqué que cette question ne semble pas avoir été rendue anonyme :

  • une adresse IP du journal d'accès au serveur
  • l'en-tête de référence
  • le nom de domaine du site en cours de configuration

Maintenant, je dois préciser que je ne pense pas qu'il y ait quelque chose de mal à faire cela, en soi. La personne qui gère le site a le droit de mentionner son site et de publier ses logs. Tout va bien. Le PO devrait être autorisé à le faire s'il le souhaite pour une raison quelconque.

Cependant, je pense qu'il devrait y avoir une politique communautaire à ce sujet. Plus précisément, je pense que nous devrions encourager l'anonymisation de ce genre de chose. Voici quelques raisons:

Si vous postez une question ici, vous postez souvent cette question parce que quelque chose ne fonctionne pas ou se comporte de manière inattendue. Donc, par définition, quel que soit le système dont vous parlez, il est mal configuré. Cette mauvaise configuration peut être inoffensive, mais elle peut tout à fait être exploitable. Une politique par défaut consistant à demander aux utilisateurs de masquer / modifier les détails qui identifient la ou les machines qu'ils configurent (par exemple, nom de domaine, adresse IP) les protégera (ainsi que leurs utilisateurs) sans affecter de manière significative la qualité des questions et des réponses.

Des exemples d'adresses sont disponibles pour la plupart des protocoles (par exemple *.example.com pour DNS, le sous-réseau 203.0.113.0/24 pour IP), et des situations comme celle-ci sont des opportunités parfaites pour utiliser ces adresses.

Quiconque possède cette adresse IP client ne voudrait probablement pas qu'elle soit publiée arbitrairement. Nous n'avons aucune raison de croire que cette personne était abusive, et ses informations spécifiques ne sont presque certainement pas pertinentes pour la question en question. Est-il contraire à l'éthique de publier leurs informations ? Non, mais c'est impoli.

J'ai l'impression qu'il y a déjà une culture informelle de faire attention à ne rien partager trop sensibles (comme les jetons d'authentification ou les données HIPAA), mais il serait bien d'avoir une politique explicite et sans ambiguïté sur les informations qui peuvent ne pas être légalement restreintes mais qu'il pourrait être irresponsable de divulguer. En partie parce que j'ai l'impression que c'est quelque chose auquel la plupart des gens ne pensent même pas du tout, et une fois que vous publiez cette information et réalisez que vous ne devriez probablement pas l'avoir, il est déjà trop tard (parce que l'information ne peut pas être supprimée, elle reste disponible dans le l'historique des révisions et dans les caches des sites qui explorent et archivent les sites du réseau SE).


Le kit d'anonymisation Cornell est open source. Leur page de recherche contient des liens vers des publications associées.

Attention : attention, il peut être très difficile d'anonymiser les données d'une manière qui empêche la ré-identification (désanonymisation), sans perdre une grande partie de la valeur des données. Ce n'est pas une situation où vous pouvez simplement lancer un logiciel sans réfléchir. La protection de l'anonymat des personnes nécessite une réflexion approfondie. Voir, par exemple, cet article pour un exposé plus détaillé des raisons pour lesquelles ce n'est pas trivial.

Un exemple d'histoire d'avertissement est le défi Netflix, où un ensemble de données apparemment anonymisé était en fait lié à l'identité des utilisateurs de Netflix - ou la publication d'enregistrements de recherche AOL anonymisés, dont beaucoup (les chercheurs ont découvert) pourraient encore être liés à individus grâce à une analyse plus sophistiquée. Un autre exemple vient du Massachusetts, où une commission d'assurance maladie a publié des données sur tous les employés de l'État, après les avoir rendues anonymes en supprimant les noms, adresses, SSN, etc. Cependant, un chercheur en protection de la vie privée a découvert qu'il était toujours possible de ré-identifier les individus, et une démonstration, a montré comment identifier les dossiers de santé du gouverneur. Elle a montré plus tard, par exemple, que la plupart des gens peuvent être identifiés de manière unique à partir de leur code postal (ou secteur de recensement), de leur date de naissance et de leur sexe. Il s'agissait d'histoires de personnes anonymisant diligemment des données qu'elles pensaient avoir fait un bon travail d'anonymisation, et ne réalisaient tout simplement pas à quel point ce problème était délicat. Ces histoires d'avertissement devraient vous faire réfléchir.

Pour ces raisons, je vous déconseille d'essayer d'anonymiser votre ensemble de données par vous-même, si vous n'avez aucune expérience préalable dans ce domaine.

Important : les techniques nécessaires pour anonymiser les données dépendront probablement beaucoup du type de données dont vous disposez et du domaine d'application dans lequel vous travaillez. Malheureusement, vous n'avez pas fourni ces informations. En conséquence, il est presque impossible de vous fournir de bons conseils sur la façon d'anonymiser votre ensemble de données.

J'imagine qu'il peut être tentant de considérer cette réponse comme inutile, car au lieu de dire "soyez heureux, ne vous inquiétez pas, lancez simplement ce logiciel magique sur vos données et vous n'avez pas à réfléchir", je dis " attendez, c'est plus compliqué qu'il n'y paraît à première vue, soyez prudent". Je me rends compte que ce message n'est peut-être pas très populaire, mais je pense que c'est un message que les gens doivent entendre.


Systèmes de gestion de l'information BMAL-590

Pour que l'information soit utile dans la prise de décision et la résolution de problèmes, l'information doit être présentée de manière significative et logique dans un contexte spécifique.

une approche complète de l'analyse se concentrant sur la façon dont les parties d'un système interagissent et sur la façon dont les systèmes fonctionnent au fil du temps et dans le contexte de systèmes plus vastes.

Cette synergie entre les ordinateurs et les humains est l'épine dorsale de l'entreprise moderne. Les entreprises qui réussissent trouveront des moyens d'exploiter ce pouvoir pour maximiser le succès commercial et organisationnel.

Cela permet des gains d'efficacité dans l'approvisionnement, la production et la livraison de biens et de services. Les systèmes SCM sont souvent appelés systèmes de planification des ressources d'entreprise (ERP). En effet, les informations qu'ils fournissent prennent en charge la planification des ressources d'expédition telles que le personnel, les fonds et les matières premières.

Par exemple, le matériel et les logiciels utilisés pour créer, maintenir et accéder à un dossier de santé électronique est un système d'information. Les ordinateurs, disques durs et autres appareils électroniques utilisés pour stocker et distribuer les dossiers des patients font partie du système. Ces appareils électroniques en eux-mêmes peuvent être qualifiés de système de technologie de l'information, même s'ils font partie d'un système d'information particulier.

Par conséquent, l'informatique relève du domaine des SI car elle traite des composants technologiques qui sont utilisés dans les systèmes d'information eux-mêmes.

La baisse rapide des coûts de stockage des données signifie que les organisations peuvent facilement maintenir des bases de données détaillées sur les individus. C'est ce qu'on appelle la loi du stockage numérique de masse.

L'analyse des données progresse, ce qui signifie que les entreprises peuvent analyser de grandes quantités de données recueillies sur les individus pour développer des profils détaillés du comportement individuel.

Les progrès de la mise en réseau signifient que la copie de données d'un emplacement à un autre et l'accès aux données personnelles à partir d'emplacements distants sont beaucoup plus faciles pour les entreprises et les particuliers.

Introduit pour la première fois en 1981, le PC IBM est généralement considéré comme le début de l'ère de l'ordinateur personnel. Le PC IBM a été le premier à être largement adopté par les entreprises américaines, utilisant initialement le système d'exploitation DOS et plus tard le système d'exploitation Microsoft Windows. Selon Gartner Dataquest, une société de recherche et de conseil de premier plan, en avril 2002, le milliardième ordinateur personnel a été livré. Le deuxième milliard aurait été atteint en 2007.

À l'ère de l'informatique client/serveur (1983 à nos jours), les ordinateurs de bureau ou portables, appelés clients, sont mis en réseau avec de puissants ordinateurs serveurs qui fournissent aux ordinateurs clients une variété de services. Le terme "serveur" fait référence à la fois à l'application logicielle et à l'ordinateur physique sur lequel le logiciel réseau s'exécute. Les serveurs d'aujourd'hui sont généralement des versions plus puissantes des ordinateurs personnels.

À l'ère de l'informatique d'entreprise (1992 à nos jours), l'utilisation d'Internet a été adoptée dans les entreprises et s'est développée en un environnement de communication fiable. Les entreprises ont commencé à utiliser sérieusement la norme de mise en réseau TCP/IP (Transmission Control Protocol/Internet Protocol) pour relier les réseaux entre eux. L'infrastructure informatique qui en résulte relie différents éléments du matériel informatique dans un réseau à l'échelle de l'entreprise, permettant aux informations de circuler librement dans toute l'organisation.

Un deuxième moteur technologique de l'infrastructure informatique est connu sous le nom de loi du stockage numérique de masse. On estime que la quantité d'informations numériques double à peu près chaque année. Heureusement, le coût du stockage des informations numériques diminue à un rythme exponentiel. En 2019, un disque dur de 500 gigaoctets coûte environ 30 $.

La loi de Metcalfe. L'inventeur de la technologie de réseau local Ethernet, Robert Metcalfe, a noté en 1970 que la puissance d'un réseau croît de façon exponentielle en fonction du nombre de nœuds du réseau. Au fur et à mesure que le nombre de membres au sein d'un réseau augmente, la valeur de l'ensemble du système augmente de façon exponentielle et continuera de croître pour toujours à mesure que les membres augmentent.

Le système de gestion de base de données fournit aux utilisateurs et aux programmeurs un moyen systématique de créer, récupérer, mettre à jour et gérer les données. Le système de gestion de base de données sert d'interface entre la base de données et les utilisateurs finaux ou l'application, garantissant que les données sont organisées de manière cohérente et facilement accessibles.
Le SGBD gère trois composants cruciaux : les données, le moteur de base de données - qui permet d'accéder ou de modifier les données - et le schéma de base de données - qui définit la structure logique de la base de données. Ces composants fondamentaux permettent d'assurer la simultanéité, la sécurité, l'intégrité des données et des procédures d'administration cohérentes.

Les tâches d'administration de base de données typiques prises en charge par le système de gestion de base de données incluent la gestion des modifications, la surveillance des performances et les procédures de sauvegarde et de restauration. De nombreux systèmes de gestion de bases de données offrent également des fonctionnalités telles que la journalisation et l'audit de l'activité, ce qui permet de garantir uniquement un accès autorisé aux données.

Les mégadonnées ne font pas référence à une quantité de données, mais font généralement référence à des données de l'ordre du pétaoctet et de l'exaoctet. En d'autres termes, des milliards à des milliards de milliards d'enregistrements, tous provenant de sources différentes, constituent des mégadonnées. Les mégadonnées sont produites en quantités beaucoup plus importantes et beaucoup plus rapidement que les données traditionnelles. Alors que les "tweets"s sont limités à 280 caractères chacun, Twitter génère à lui seul plus de huit téraoctets de données par jour.

À l'aide de routeurs et de commutateurs, les réseaux locaux peuvent se connecter à des réseaux étendus pour transférer des données rapidement et en toute sécurité.

L'un des nombreux avantages du cloud computing est l'élimination d'une grande partie des dépenses en capital pour une entreprise. Une entreprise évite d'avoir à acheter du matériel, des logiciels et des centres de données sur site. Au lieu de cela, le fournisseur de services cloud propose l'infrastructure et les experts nécessaires pour la gérer.

La plupart des services de cloud computing sont fournis à la demande. Les entreprises disposent des ressources nécessaires en quelques minutes. Cela offre à l'entreprise une grande flexibilité et lui permet d'évoluer de manière élastique. En termes de cloud, « de manière élastique » signifie fournir la bonne quantité de ressources informatiques au moment où cela est nécessaire.

Les systèmes de gestion de contenu permettent à plusieurs contributeurs de créer, éditer et publier sur un site donné. Généralement stocké dans une base de données, le contenu d'un système de gestion de contenu est affiché sur la base d'un ensemble de modèles. Un système de gestion de contenu d'entreprise facilite la collaboration sur le lieu de travail en intégrant des fonctionnalités de gestion des documents, de gestion des actifs numériques et de conservation des enregistrements. La nature collaborative d'un CMS est un avantage significatif par rapport aux systèmes de gestion de fichiers traditionnels. Plusieurs utilisateurs peuvent se connecter simultanément et contribuer, programmer ou modifier le contenu à publier. L'interface est généralement basée sur un navigateur, ce qui permet à un CMS d'être accessible de n'importe où par n'importe quel nombre d'utilisateurs.

comprend une grande variété d'applications, d'outils et de méthodologies. Une organisation collecte des données à partir de sources internes et externes, les prépare pour l'analyse, puis développe et exécute des requêtes sur ces données pour prendre en charge la Business Intelligence. Des rapports, des tableaux de bord et des visualisations de données peuvent ensuite être créés pour présenter des informations exploitables aux décideurs de l'entreprise. Les outils de Business Intelligence profitent à une entreprise en accélérant et en améliorant la prise de décision, en optimisant les processus commerciaux internes et en améliorant l'efficacité opérationnelle pour aider à acquérir un avantage concurrentiel.

Les programmes de Business Intelligence peuvent également incorporer des formes d'analyses avancées, telles que l'exploration de données, l'analyse prédictive, l'analyse statistique et l'analyse des mégadonnées. Les projets d'analyse avancée sont souvent menés et gérés par des équipes distinctes de statisticiens, de scientifiques des données et d'autres professionnels de l'analyse qualifiés.

le terme utilisé pour décrire tout programme ou code malveillant conçu pour nuire aux systèmes. Les logiciels malveillants cherchent à envahir, endommager ou désactiver les systèmes informatiques, les réseaux et les appareils mobiles, souvent en prenant le contrôle des opérations d'un appareil.

Les logiciels malveillants visent principalement à tirer de l'argent d'une entreprise ou de personnes de manière illicite. Bien que les logiciels malveillants ne puissent généralement pas endommager le matériel physique des systèmes ou des équipements réseau, ils peuvent voler, chiffrer ou supprimer des données, modifier les fonctions informatiques de base et espionner l'activité de l'ordinateur à l'insu ou sans la permission de l'utilisateur.

Toutes sortes de drogues, d'armes à feu, de numéros de carte de crédit, d'argent contrefait, d'identifiants d'abonnement volés et de logiciels qui vous aident à pénétrer dans les ordinateurs d'autres personnes sont tous des articles disponibles à l'achat sur le Dark Web.

Au fil des ans, les pirates ont volé des plans pour des systèmes de suivi de missiles, des appareils de navigation par satellite, des drones de surveillance et des chasseurs à réaction de pointe.

La planification est la première phase du processus de développement des systèmes. Il sert à déterminer si un nouveau système est nécessaire pour atteindre les objectifs stratégiques d'une entreprise et si l'entreprise a la capacité d'acquérir les ressources nécessaires pour construire un système. Cette étape permet de déterminer l'étendue du problème et d'identifier des solutions. Les ressources, les coûts, le temps, les avantages et les autres dépenses doivent être pris en compte à ce stade.

La deuxième phase est l'analyse des systèmes et des exigences dans laquelle l'entreprise se concentre sur la source de son problème ou son besoin de changement. Les solutions possibles sont soigneusement analysées pour aider à déterminer si elles répondent aux exigences fonctionnelles du projet. Les besoins des utilisateurs finaux sont également examinés pour s'assurer que le nouveau système peut également répondre à leurs attentes. L'analyse des systèmes est essentielle pour déterminer quels sont les besoins de l'entreprise, comment ces besoins seront satisfaits et qui est responsable de certaines parties du projet, ainsi que pour établir un calendrier.

La troisième phase, la conception des systèmes, décrit les spécifications, les caractéristiques et les opérations nécessaires qui satisferont aux exigences fonctionnelles du système proposé. Dans cette étape, les utilisateurs finaux discuteront et détermineront leurs besoins spécifiques en informations commerciales pour le système proposé. C'est au cours de cette phase que les utilisateurs finaux examineront les composants essentiels, la structure, le traitement et les procédures permettant au système d'atteindre ses objectifs.

La quatrième phase du cycle de vie du développement du système est le développement. Dans cette phase, l'implication d'un programmeur, d'un ingénieur réseau ou d'un développeur de bases de données signifie le début de la production.

La cinquième phase, l'intégration et les tests, implique l'intégration des systèmes et les tests des systèmes qui sont généralement effectués par un professionnel de l'assurance qualité. Il est déterminé au cours de cette phase si la conception proposée répond à l'ensemble initial d'objectifs commerciaux. Les tests seront répétés pour vérifier les erreurs jusqu'à ce que l'utilisateur final le trouve acceptable. La vérification et la validation sont également une partie essentielle de cette phase, qui contribueront toutes deux à assurer la réussite du programme.

La sixième phase, la mise en œuvre, implique l'installation proprement dite du système nouvellement développé. Dans cette phase, le projet est mis en production en déplaçant les données et les composants de l'ancien système vers le nouveau système. Une fois la mise en œuvre terminée, le système est alors dit en production.


Directives pour la désidentification ou l'anonymisation des données

REMARQUE : Pour les besoins de ce document, bien qu'il existe des différences subtiles dans leurs définitions, "de-identification" et "anonymisation" seront considérés comme des termes synonymes. Ces termes font référence à des situations où les informations d'identification personnelle sont supprimées des ensembles de données afin de protéger la vie privée d'une personne. « Assainissement » est considéré comme un terme d'élimination des médias et fait référence à la suppression des données des périphériques de stockage des médias. Vous trouverez plus d'informations sur la désinfection dans le Lignes directrices pour la désinfection des médias d'information.

Table des matières

Objectif

Ce document décrit les définitions de haut niveau, les principaux défis et risques, les recommandations, les premières étapes critiques et les ressources pour la mise en œuvre et l'utilisation de données anonymisées ou anonymisées. Il ne contient pas de méthodes techniques spécifiques pour la désidentification d'ensembles de données particuliers. Le document est écrit spécifiquement en pensant aux établissements d'enseignement supérieur. Cependant, ces problèmes de haut niveau sont probablement communs à la plupart des organisations qui tentent de dépersonnaliser les données.

Définitions

Les définitions relatives à des concepts tels que « de-identification », « « l'anonymisation » et « la « désinfection » sont très nuancées et dépendent du contexte. Les établissements d'enseignement supérieur sont encouragés à définir ces concepts tels qu'ils s'appliquent aux politiques, processus et procédures institutionnels locaux afin d'éliminer la confusion concernant des termes similaires. The definitions below provide information about how terms may be used in different contexts.

These definitions are based in part on the IAPP's Glossary of Privacy Terms.

  • Anonymization : The act of permanently and completely removing personal identifiers from data, such as converting personally identifiable information into aggregated data. Anonymized data is data that can no longer be associated with an individual in any manner. Once this data is stripped of personally identifying elements, those elements can never be re-associated with the data or the underlying individual.
  • Data Handler : Sometimes also called a "data processor." This is an individual who processes, handles, or otherwise uses data at an institution. With respect to de-identifying data, this is the individual who takes the original data and does the work to de-identify it.
  • Data Subject : The term used to describe the individual who is the subject of a data record.
  • De-identified : Without reference to health information, de-identification involves the removal of personally identifying information in order to protect personal privacy. In some definitions, de-identified data may not necessarily be anonymized data (as we have defined that term in this document). This may mean that the personally identifying information may be able to be re-associated with the data at a later time. In such cases, anonymized data is a particularized subset of de-identified data. In this document, "de-identified" and "anonymized" will be considered synonymous terms.
    This term is also understood as a health information concept as it relates to the Health Insurance Portability and Accountability Act (HIPAA) Privacy Rule. Data is considered de-identified under the Privacy Rule when a number of specified data elements are removed. (45 C.F.R. §§ 164.502(d)(2), 164.514(a) and (b).) De-identified data is not regulated by HIPAA and may be shared without restriction. This concept is different from the HIPAA "limited data set" concept. A "limited data set," by contrast, is stripped of many categories of identifying information but retains information often needed for public health and research (such as birth dates, dates of treatment, and some geographic data). Entities covered by HIPAA may share a limited data set for research, public health and health care operations purposes permitted by the Privacy Rule, so long as all recipients are bound by a data use agreement with the originator of the data. (45 C.F.R. § 164.514(e).)
  • Sanitization : Refers generally to the process of removing information from storage media such that data recovery is not possible. See Guidelines for Information Media Sanitization. "Data Sanitization" can also refer to the process of disguising sensitive information in information technology resources by overwriting it with realistic looking, but false, data. For the purposes of this document, "sanitization" is considered a media disposal term.

Aperçu

The ability to collect and store information about individuals and their actions and habits is easier than ever before. Advances in information technology make the storage, cataloging, and use of such information trivial. Many educational institutions have stored both paper and electronic data about individuals, either through the direct collection of such data for organizational purposes or data stored as a result of the provision of services to individuals. Due to privacy concerns, oftentimes such data must be de-identified or anonymized before it is used or studied.

Educational institutions may have a number of reasons for using de-identified data for business, academic, or operational functions. For instance, data can be made available for institutional use, without identifying the underlying data subjects, for research purposes, institutional effectiveness studies, performance and operational studies, information technology security and operational reviews, and for public health purposes.

Other uses of de-identified data may require the ability to retain unique identifiers for individuals in the data set, without identifying the actual identity of the individuals. For example, a researcher may need to know that certain actions were all taken by the same individual, in order to form conclusions about how individuals use the data or service. A web site designer may want to determine how long individuals stay on the site, or how individuals traverse the site in order to find the information sought. Systems development, test, and training environments may require the use of data that simulates real production data, while not actually consisting of real data elements such as Social Security numbers. In such cases, de-identification processes are complicated by the need to replace unique identifiers such as Social Security numbers or IP numbers with alternate unique identifiers that cannot be used to identify the actual individual.

While de-identifying data is a useful step towards protecting privacy, the de-identified data can still carry a number of privacy risks. For instance, in some situations institutions may need to ensure that de-identified or anonymized data cannot be re-engineered to identify the underlying data subjects. This concern is not insignificant and there are a number of examples of purported de-identified industry data being released for research purposes that was subsequently found to be poorly de-identified or susceptible to re-identification of individual data subjects. For instance, in 2006, AOL released search log data on subscribers that had been intended for use with the company's newly launched research site. Although no personally identifiable data was included, privacy advocates found that individuals could be identified based on the detailed searches they conducted. Netflix also released movie ratings data that had been anonymized by removing personal details yet, researchers were able to de-anonymize the data by comparing it against publicly available ratings on the Internet Movie Database. Thus, as part of a risk assessment when releasing de-identified data, consideration must be given to the likely possibility of the recipients of the data having access to other data sets or methods that would allow re-identifying the data. Clearly, releasing de-identified data sets to the public, as with the AOL and Netflix incidents, requires more careful consideration of this risk than releasing de-identified data to a researcher within your organization or other distinct entity, especially if an agreement can be documented as to what the researcher or entity can and cannot do with the de-identified data.

Institutions looking to address de-identification or anonymization of data are strongly advised not to proceed without partnering with their Institutional Review Boards. The IRB's primary function is to protect the privacy of individuals and the rigor of research protocols associated with human subjects. As such, they bring not only significant expertise to the issue, but a deep understanding of institutional processes as they affect research.

Key Challenges and Risks

Before embarking on a data de-identification project, high-level challenges and risks must be identified to determine how to appropriately mitigate risks in the context of the proposed use of the data. The list of challenges included below is intended to help institutions identify their own unique issues regarding de-identified or anonymized data sets. This list is not intended to be complete, and not all challenges pose risks that would outweigh the benefits of the use of the data. It is important to review the challenges and risks against these benefits, and to identify strategies for reducing risks, before making decisions to de-identify and then release the data.

No regulation of de-identified data

While the United States has no one general law regarding the privacy of data, identified or de-identified, there are a number of different requirements and definitions for the data used in the various regulatory sectors. For instance, the federal Health Insurance Portability and Accountability Act of 1996 (HIPAA) (Pub. L. No. 104-191, § 264 (1996), codified at 42 U.S.C. § 1320d), primarily protects the use of protected health information. The Gramm-Leach-Bliley Act (GLBA) (Pub. L. No. 106-102 (1999) protects some types of consumer financial data. In both of these laws, however, de-identified data is not truly regulated. In addition, de-identified, publicly available data does not constitute human subjects research as defined at 45 C.F.R. 46.102.

Institutions should consider how the provision of de-identified or anonymized data impacts their ability to comply with the reporting duties of various legal requirements. E-discovery, state data protection laws, and export control regulations may also need to be considered. (Note: See the E-Discovery Toolkit pour plus d'informations.)

Lack of clear definition of de-identified or anonymous data

It is often not possible for an educational institution to declare for certain when a data set has or has not been de-identified. All organizations face significant challenges and risks in ensuring that their processes for de-identifying or anonymizing the personal identifiers in data sets are accurate.

The lack of a generally accepted overarching definition of what constitutes "personally identifiable information" ("PII") versus non- personally identifiable information ("non-PII") exists because it is not possible to reduce the issue to a simple listing of data elements. Information that enables an individual to be distinguished as a particular computer user is dependent on the context and the availability of other data sets that, when compared to the de-identified data set, could cause identification to occur regardless of whether the data is "personally identifiable" in the traditional sense.

The AOL and Netflix examples, in particular, show that there are situations in which the personal identifiers or other identifying information in de-identified or anonymized data can be recovered or reconstructed, when the data is released to those who have access to other data sets that might enable re-identification, and who have not agreed to appropriate terms of use of the data.

Paper-based vs. electronic data

The steps taken to de-identify data will differ based on the format of the data. De-identification concerns have arisen primarily because of the production of huge sets of electronic data, but data in paper format also may need to be de-identified. In such cases, methods such as using a black marker to obscure the identifiable parts of the document are not usually sufficient, as the information may still be legible. Physically cutting out the identifiable information is usually recommended. When paper documents are converted to images, the imaging software may allow for blacking out of data in a way that renders the area unreadable.

Types of de-identified or anonymous data

Educational institutions collect personally identifiable data as a product of doing business with students, faculty, staff, and outside parties. Educational institutions also collect data about their information technology systems and operations, in the form of logs, network traffic, web traffic, etc., which also may contain personally-identifiable data. There are different challenges and risks with de-identifying the data, depending on its type. Thus, it is important to first determine which types of data you will be working with, and to tailor your work to the special challenges for that type.

Special challenges with logs, network traffic, web traffic, etc.

The challenge in assuring that data is fully de-identified or anonymized is compounded when attempting to de-identify huge sets of systems operations data in unstructured formats. There are no search terms that can be reliably used to find and remove all potential instances of personally identifiable data (for example, names and addresses). Anonymizing tcpdump packet captures is extremely difficult to do because the packet contents reveal a great deal of information about the users. In flow dumps, even if address information is anonymized, traffic and pattern analysis would allow analysis that may be personally identifiable. In addition, there is currently a debate as to whether the IP Address, when it appears in log or traffic data, constitutes personally identifiable data. Some have chosen to truncate the last one or two octets of the IP address in order to avoid that debate however, others believe this truncation is still not de-identified enough.

Need for re-identification and careful use of re-identification keys

In some cases, the de-identified data needs to eventually be re-identified, or, the de-identified data may need to retain the ability to track the activity of an anonymous individual in the data set. In such cases, de-identification processes are complicated by the need to replace unique identifiers such as Social Security numbers or IP numbers with alternate unique identifiers that cannot be used to identify the actual individual. The key for matching the alternate unique identifier back to the original unique identifier may need to be retained, yet highly secured from unauthorized access. Additionally, researchers often need to trend data - thus, anonymization keys need to be varied periodically or else it becomes easier to recover or resolve network structure - a possible security impact to the institution that is unrelated to personally identifiable data.

Balancing risk with value

The consequences of poor data de-identification or anonymization can be severe: individuals can be personally identified, perhaps with respect to sensitive or embarrassing financial, medical, or other habits or activities. If network or other operational data is poorly de-identified or anonymized, a person external to the institution may be able to map the institution's network infrastructure. However, de-identification and anonymization must be balanced with the value of the data. In the network example, totally anonymized data (such that an institution's network topology becomes featureless) minimizes the value of the data. It has been said that "Data can either be useful or perfectly anonymous but never both." If the value is high, organizations can often identify and implement strategies to reduce the risk to an acceptable level, so that the data can be utilized.

The status of the requestor also factors into the risk. If the requestor is a member of the organization providing the data, this is generally less of a risk than providing the data to an external party. Can the requestor be required to sign an agreement specifying how the de-identified data may or may not be used? This is a typical strategy used to reduce the risk. It is important to ensure the institution has a method for evaluating the value against the risk, and has strategies for reducing the risk to acceptable levels, so that data can be utilized for research, business, academic, operational, and other purposes when there is significant value.

For more information on risk analysis, see the Risk Management chapter.

Handling and use considerations

There may be a number of persons involved in a transaction involving de-identified and anonymized data. These persons may take on many roles: the data handler who takes the full data set and de-identifies it the receiver of the de-identified data the external researcher who manipulates de-identified or anonymized data sets or combines those data sets with outside information. Safeguards must be considered with respect to how such data sets will be used and by whom. Considerations include:

  • Human resources safeguards: How do institutions ensure that both institutional and external data handlers minimize risks to the privacy, security, and integrity of the data? How does the provider manage additional individuals who may be given access to the data?
  • Receiver trustworthiness: How does an institution establish an adequate level of trust in the receiver of the data? How do we ensure our trust boundaries do not extend farther than intended when giving the data to the receiver? Does receiver intended use of information conflict with institutional privacy principles?
  • Co-mingling with other data: What are the potential for and the consequences of information re-identification resulting from co-mingling the de-identified or anonymized data set with other information the receiver has access to? An example might include Google Analytics, where analytics data such as IP address could be compared to other data that Google retains.
  • Responsibility/liability for breaches: What is the relative liability for privacy breaches accepted by the receiver and retained by the university? How will liabilities related to privacy breaches be shared between the receiver and the university? What response plan will be followed if a privacy breach occurs? How is the data owner notified? What leverage do we have if the receiver acts inappropriately with the data?
    • Note that in some instances, institutions may even have notification responsibilities with respect to de-identified data, such as in the instance of protected health information under HIPAA. Under the HITECH Act, breach notification may be required if, based upon rational reasoning and analysis, it is determined that protected health information elements, individually or in combination, could point to a specific individual(s). (Health Information Technology for Economic and Clinical Health (HITECH) Act, Title XIII of Division A and Title IV of Division B of the American Recovery and Reinvestment Act of 2009 (ARRA) (Pub. L. 111-5).)

    Data Classification

    Institutions have many different regulations that they must follow. Data classification is often a security requirement under these regulations. For instance, HIPAA, the Family Educational Government Rights and Privacy Act (FERPA) (Pub. L. No. 93-380 (1974), codified at 20 U.S.C. § 1232g), and the Department of Health and Human Government Services (HHS) regulations regarding protection of human subjects (Title 45 CFR Part 46 ) all require classification of data. Classifying data appropriately is an important step in properly protecting it. Understanding the classification requirements for a set of data can help an organization determine whether data should be de-identified and/or anonymized when it is used for certain purposes.

    More information on classification can be found in the Data Classification Toolkit.

    International considerations

    In considering who might receive de-identified or anonymized data sets, we must consider whether those data sets will leave the country of origin. Is the data being provided to a country with different laws and regulations on privacy? Can we control where the receiver stores our data if the law restricts the transmission or storage of such data (e.g., certain research data) outside the US?

    Providing services for de-identifying or anonymizing data

    Many institutions provide central data anonymization services. Doing so helps bring consistency of practice and contain risk to the institution. Providing data de-identification or anonymization services at an institutional level, however, poses many challenges:

    • What unit would provide the service?
    • How would the unit be funded for this activity?
    • What types of data will the service de-identify?
    • How will the risk and value be determined?
    • Who can use this service?
    • Who acts as the data handler, to de-identify the data?
    • How do you ensure that this data handler employs and maintains adequate safeguards?
    • How is the de-identified data checked for accuracy and anonymity before providing it to the requestor?
    • How do you ensure that de-identified data meets legal or regulatory requirements, if applicable?
    • How do you ensure that requestor maintains the de-identified state of the data?
    • What type of user support is needed?
    • What are the minimum service expectations?
    • What if the service does not meet expectations?
    • And finally, in the end, what if the handler determines that the data cannot be de-identified or anonymized?

    General Recommendations

    Organizations vary in size, type, and capacity to deal with data de-identification issues. Typically when a data de-identification need arises, information policy, security, or privacy staff assist by framing the discussion and helping find appropriate solutions. The list of recommendations included below is intended to help institutions respond to their own unique challenges regarding de-identified or anonymized data sets. This list is not intended to be complete.

    Governance Recommendations

    • Stewards/Stakeholders: Position the owners/stewards/stakeholders of the identified data set to take a leadership role in all decision making processes.
    • Consultation: Consult with the appropriate Institutional Review Boards, data stewards, stakeholders, and subject matter experts research compliance, HIPAA compliance, and other compliance offices and the General Counsel's Office, Information Security Office, and Information Privacy Officer.
    • Receiver agreement: Create a standard contract or service level agreement to be used with the receiver of the de-identified data.
    • Due diligence: Due diligence should be conducted to determine the viability of the data de-identifier and the receiver. Consider such factors as reputation, transparency, references, financial (means and resources), and independent third-party assessments of safeguards and processes, particularly if you outsource the de-identification process.

    Process Recommendations

    • Risk/benefit analysis: Identify and understand the risks and benefits of the service. Recognize that de-identification failures and re-identification efforts of receivers will potentially involve or at least reflect on the university. Honestly compare costs of providing de-identification services, including costs to manage the receiver relationship, against the benefits of the intended use of the de-identified data.
    • Lower risk candidates: When considering de-identification services, ideal candidates will be those that involve information with lower risk of re-identification or that are classified into a level that requires little to no protections. These are likely to represent the best opportunities for maximizing benefit while minimizing risk.
    • Higher risk candidates: Data which is questionable as to whether or not it actually can be completely de-identified (such as network flow data, web traffic data, etc.), are necessarily higher risk candidates and require careful scrutiny and consideration, and stronger strategies for reducing the risk to acceptable levels. Data classified into levels that require medium to strong protections also are higher risk candidates. Also, small data sets are generally riskier, due to the increased chances that an individual could be identified.
    • Centralized de-identification services: Consider leveraging internal services when looking for ways to provide data de-identification to university community members for university purposes, e.g., create a data lab/virtual server solution, with trained data de-identification experts. Develop an institutional standard for data anonymization.
    • De-identifier safeguards: Ensure the data handler doing the de-identification implements physical, technical, and administrative safeguards appropriate to the risk. Areas to explore with the de-identifier include privileged user access, regulatory compliance, data location, data segregation, recovery/data availability, personnel practices, incident response plans, and investigative/management support. Scrutinize any gaps identified.
    • Proportionality of analysis/evaluation: The depth of the above analysis and evaluation and the scope of risk mitigation measures and required assurances must be proportional to the risk involved, as determined by the sensitivity level of the information involved and the criticality or value to the university of the use of the de-identified data involved. Fewer steps and strategies for mitigating risk are necessary when the risk is low more are required when the risk is high.

    Critical First Steps

    The following steps can assist in creating an institutional process for de-identifying data sets.

    1. To whom should a request for de-identified data set be made? Determine where requests are to be directed first. Consider the data steward for that data set, or the owner of the service containing the data, or another appropriate office or group. Consider noting that any request identified as a public records request (or perhaps all external requests) go to the office that handles those requests as a first step.
    2. Who works with the requestor to understand the request, analyze the data, and identify what data elements must be de-identified? The data steward or other receiver of the request may act as the shepherd of the request through the various steps. Consider a form or set of questions for the requestor to complete or the receiver of the request to ask the requestor use the rest of this document to help identify what to include on your form. Document and understand the requestor's need, the existence of data to meet that need, the data elements that would need to be removed, and the risk of de-identifying and providing the data to the requestor (including the risk of re-identification). Prepare enough information to take the request to the next step. It may be necessary to include a technical expert at this stage (see step 6 for more about technical resources), in order to identify alternative solutions the requestor has not identified.
    3. From whom must approvals be obtained before the design/proposal to provide de-identified data is accepted? Before the data set may be released? Consider setting up an approval team or process that includes the data steward, information security, information privacy, legal counsel, Institutional Review Board, and others you identify after reviewing the rest of this document. Provide the information gathered in step 2. Discuss and review the key challenges and risks. Determine most appropriate solution. Document approval, any requirements for the technical personnel who will do the de-identification, and any requirements for the requestor of the data.
    4. If there is a cost either in resources or budget to do the work, who approves the cost estimates? Who pays? The cost of personnel to undertake the de-identification may be an issue, especially if the organization is a large research university that may receive many requests for this service. How will the institution cover these costs? Or, what charges will be made?
    5. Is it acceptable for a data steward or other members of the approval team to refuse the request on grounds other than confidentiality? Consider allowing data stewards and/or other approval parties to refuse a project for a variety of reasons other than confidentiality, perhaps including riskiness, time, cost, resources, status of receiver, etc. as identified after reviewing the rest of this document. Who makes the final decision? Are there options that could be considered when approval parties are uncomfortable with the project as proposed? What projects receive priority?
    6. What technical resources are available to do the de-identification? Identify technical personnel who will be trained in the issues of de-identification and the technical methods of achieving de-identification of various types of data sets. Consider limiting the number of persons performing this work in order to reduce risk to the de-identified data sets and to increase expertise in technical de-identification processes. Look to information technology, research technology, computer science, or other areas to find personnel. Provide resources to identified personnel for training and ongoing learning. Review this document with identified personnel. Consider having technical personnel sign an annual confidentiality and appropriate use agreement. Consider having information security review de-identification processes prior to implementation.
    7. Document the provision of the de-identified data to the requestor. Identify who will provide the de-identified data to the requestor. Does the technical data handler do so, or does the handler provide the data to another party to review the data and complete the transaction? Track the provision of de-identified data to requestors, including any agreements the requestor may be made to sign.

    Further Information and Resources

    Institutional Resources

    Regulatory Resources

    • Health Insurance Portability and Accountability Act of 1996 (HIPAA) (Pub. L. No. 104-191, § 264 (1996), codified at 42 U.S.C. § 1320d Standards for Privacy of Individually Identifiable Health Information, 45 C.F.R. § 160 (2002), 45 C.F.R. § 164 subpts. A, E (2002).

    Technical Resources

    Other Resources

      • CDT Policy Post (October 1, 2009), Stronger Protections for, and Encouraging the Use of De-Identified (and "Anonymized") Health Data
      • CDT Policy Post (October 1, 2009), Government Information, Data.gov and Privacy Implications
      • CDT, Encouraging the Use of, and Rethinking Protections for De-identified and "Anonymized" Health Data (June 2009)
      • CDT, Compendium of "Sensitive" Information Definitions (March 24, 2008)

      Except where otherwise noted, this work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0).

      Connect with EDUCAUSE

      Subscribe to our emails and hear about the latest trends and new resources.