Rechercher
Contactez-nous Suivez-nous sur Twitter En francais English Language
 











Abonnez-vous gratuitement à notre NEWSLETTER

Newsletter FR

Newsletter EN

Vulnérabilités

Se désabonner

Près d’un milliard de personnes en Chine ont vu leurs données personnelles divulguées

juillet 2022 par CloudTDMS.com

La Base de Données de la police de Shanghai est à vendre, ceci pourrait être la plus grande violation de données jamais enregistrée en Chine. La Chine compte environ 1,4 milliard d’habitants, ce qui signifie que la violation de données pourrait potentiellement toucher plus de 70 % de la population.

En effet, des hackers inconnus ont affirmé avoir volé les données de près d’un milliard de résidents chinois après avoir piraté une base de données de la police de Shanghai. Ils vendent plus de 33 téra-octets de données volées pour 10 bitcoins (soit environ 200 000 US$). La base de données comprend les noms, adresses, lieux de naissance, numéros de CIN, et de téléphone ainsi que des informations juridiques.

Qu’est-ce qu’une fuite de données ?

Une fuite de données est un transfert de données non autorisé d’une organisation (privée ou public) vers un tiers. Cela peut se produire de plusieurs manières, telles qu’un email, ou un accès physique non autorisé à des périphériques via des stockages dans le cloud, des ordinateurs portables, des clés USB, …

En un mot, nous pouvons regrouper les fuites de données en deux catégories :
• Externe : un hacker ciblant l’infrastructure informatique d’une entreprise puis en vole les données.
• Interne : de manière accidentelle ou non.
o Les fuites de données accidentelles se produisent lorsqu’un employé ou un partenaire commet une erreur de sécurité, à l’exemple de l’envoi d’un e-mail contenant des informations confidentielles aux mauvais destinataires. Ou la perte d’un ordinateur portable professionel, ou encore l’utilisation de mots de passe faibles.
o Les menaces internes peuvent également venir d’employés ou de partenaires qui divulguent délibérément des informations sensibles afin de se venger ou simplement les vendre.

Les fuites de données se produisent le plus souvent d’une façon interne ou accidentelle.
Les violations de données ouvrent une boîte de pandore de risques pour les entreprises tels que les augmentations de frais d’assurance, les poursuites judiciaires, les amendes réglementaires ou encore l’embarras avec les médias.

Quelle est la vraie raison de cette fuite de données ?

Les Hackers ont affirmé que la base de données était hébergée sur le Cloud et accessible sans aucune protection.
Les experts en cyber-sécurité affirment que cette brèche pourrait être la plus importante de l’histoire du pays. Ils affirment aussi qu’il n’est pas rare de trouver des bases de données ouvertes au public. Les PII (Personal Identifiable Information) non sécurisées, exposées par des fuites, des violations ou une forme d’incompétence, sont un problème de plus en plus courant auquel sont confrontées les entreprises et les gouvernements du monde entier.

Si cette base de données très sensible a été stockée dans le cloud sans mesures de sécurité adéquates, c’est probablement dû au fait que des données réelles ont été partagées par des membres de l’équipe interne, soit avec les :
• Partenaires informatiques.
• Développeurs/testeurs de projets analytiques et BI.
• Data scientists afin de former/tester de nouveaux modèles d’IA/ML (IA : Intelligence Artificielle, ML : Machine Learning).

Comment votre organisation peut-elle éviter les fuites de données ?

Afin de réduire le risque des fuites de données, les entreprises suivent généralement les meilleures pratiques en matière de sécurité des données telles que la Zero-trust, Security by design, la signature d’accords de confidentialité par les employés et les partenaires, la sécurisation des terminaux (end-points) ainsi que la surveillance d’accès aux données, etc.

Par ailleurs, CloudTDMS.com, une solution No-Code Cloud Franco-Britannique, recommande de “NE JAMAIS PARTAGER les données réelles que ce soit avec les partenanires informatiques ou avec les développeurs et testeurs qu’ils soient internes ou externes”.

La cause ignorée de nombreuses fuites de données : le partage des données réelles/production avec les partenaires informatiques, développeurs et testeurs pour l’avancement des projets en cours

Avec de plus en plus de travail à distance ainsi que la collaboration avec les partenanires informatiques on-shore et offshore, les violations de données vont se produire plus fréquemment que jamais, aucune entreprise ne peut affirmer que cela ne lui arrivera pas !
En effet, le partage des données réelles est l’option la plus simple pour tous les membres de l’équipe d’un projet data MAIS c’est aussi l’option la plus dangereuse OR ce n’est pas la seule option non plus !

Certaines entreprises pensent que le cryptage des données de production résoudra le problème, mais le diable est dans les détails !
Puisqu’il est tout simplement impossible de chiffrer tous les systèmes et toutes les données à tout moment, les données étant déchiffrées d’une manière ou d’une autre pendant le traitement des workflows (back-end), il est également impossible de prouver que la sécurité du chiffrement fonctionne à tout moment. Ainsi, le chiffrement donne un faux sentiment de sécurité.

Un conseil important de CloudTDMS.com pour tout projet informatique : NE JAMAIS partager les données réelles, et cela même dans des cas aussi exceptionels que :
• La demande urgente de tableau de bord par le PDG de l’entreprise.
• Le besoin bloquant d’une équipe projet de données réelles pour la formation d’un nouveau modèle IA/ML.
• Lors des phases dev/test/qa d’un projet big data.

Rejoignez la nouvelle ère des données synthétiques (réalistes) ! Le nouveau carburant des Projets Data. En d’autres termes, n’importe quelle entreprise peut rendre les données de test synthétiques/réalistes sans les prendre des plateformes de production !

Gartner prévoit que d’ici 2024, 60 % des données utilisées pour le développement de projets d’IA et d’analytics seront générées de manière synthétique.
Forrester recommande des données synthétiques pour accélérer le développement de nouvelles solutions d’IA, améliorer la précision des modèles d’IA et protéger ainsi les données sensibles. Ils sont actuellement utilisés dans les véhicules autonomes, les services financiers, les compagnies d’assurance, pharmaceutiques et les fournisseurs de vision par ordinateur.

Comment les entreprises pourraient-elles rendre leurs projets informatiques sécurisés et entièrement conformes aux politiques et réglementations de sécurité telles que le RGPD ?

Pour alimenter tout projet informatique, vous devrez créer des données synthétiques/réalistes afin de relever les principaux défis tels que :
• Conformité réglementaire RGPD : Plus de 55 % des entreprises ne respectent pas entièrement les politiques de confidentialité des données en raison de l’accès à tout ou partie des données de production par les équipes de développement et de test. Elles risquent des pénalités RGPD allant de 2 % du chiffre d’affaires annuel ou 10 millions d’euros, selon le montant le plus élevé, à 4 % ou 20 millions d’euros, selon la gravité de la violation.
• Production des données de test : Jusqu’à 45 % du temps de développement/test est consacré à la génération manuelle ou à l’attente de données de test. Ceci impact sévèrement la productivité des équipes ainsi que le « Time to Market ».
• Découverte/Profilage des données : Jusqu’à 85 % des données sont encore profilées manuellement. Ceci induit des profilages de données incomplets ou incohérents.
• Automatisation : Plus de 70 % des données de test sont toujours créées manuellement. Ceci impact sévèrement la productivité des équipes ainsi que le « Time to Market ».

Pour ce faire, vous pouvez soit utiliser des bibliothèques python open source telles que Faker ou avoir recours à une solution Cloud No-Code offrant des plans gratuits tels que CloudTDMS.com.

D’une part, Faker est une puissante bibliothèque python qui génère de fausses données, très simple à utiliser. Cette approche de développement interne fonctionne bien. Cependant, la génération des données à l’aide de Faker nécessite des compétences en codage. De plus, elle n’est ni configurable ni répétable, comme par exemple, pour tout nouvel objet/table/fichier, le script doit être complètement réecrit ou modifié.

D’autre part, la solution CloudTDMS.com est une plate-forme Cloud No-Code disposant de toutes les fonctionnalités nécessaires à la gestion des données de test telles que :
• La génération de données synthétiques et réalistes,
• La modélisation des données avec de nombreux accélérateurs pour faciliter cette étape importante dans tout projet data,
• Des intégrations built-in avec les bases de données et les solutions cloud telles que AWS-S3, AWS-Redshift, Google-Drive, DropBox MySQL, Oracle, Salesforce ou ServiceNow,
• La gestion des référentiels de données (Data Foundation),
• La découverte et le profilage des données,
• La collaboration entre les membres de l’équipe data (architectes de données, data scientists, développeurs et testeurs),
• La protection et masquage des données.
De plus, la SaaS CloudTDMS.com propose un "forfait Always Free" appelé "Starter plan".

Ne faites pas la une des journaux !

Avec la nouvelle approche des données synthétiques, et gratuitement, vous pourrez alimenter tout projet data & protéger votre entreprise.
Ceci via un développement interne en utilisant les bibliothèques open-sources telle que Python Faker, ou en utilisant une solution Cloud No-Code telle que CloudTDMS.com.

En un mot, un conseil : Fake it until you make it !


Voir les articles précédents

    

Voir les articles suivants