Qu'est-ce que les données synthétiques ?

Un cours intensif sur les données synthétiques

 

 

Introduction

Qu'est-ce que les données synthétiques ?

La réponse est relativement simple. Alors que les données originales sont collectées dans toutes vos interactions avec des personnes réelles (par exemple clients, patients, employés, etc.) et via tous vos processus internes, les données synthétiques sont générées par un algorithme informatique. Cet algorithme informatique génère des points de données complètement nouveaux et artificiels.

Résoudre les problèmes de confidentialité des données

Les données générées synthétiquement consistent en des points de données complètement nouveaux et artificiels sans relation univoque avec les données d'origine. Par conséquent, aucun des points de données synthétiques ne peut être retracé ou faire l'objet d'une rétro-ingénierie par rapport aux données d'origine. En conséquence, les données synthétiques sont exemptées des réglementations sur la confidentialité, telles que le GDPR, et servent de solution pour résoudre et surmonter les problèmes de confidentialité des données.

Augmenter et simuler

L'aspect génératif de la génération de données synthétiques permet d'augmenter et de simuler des données complètement nouvelles. Cela fonctionne comme une solution lorsque vous n'avez pas assez de données (pénurie de données), que vous souhaitez sur-échantillonner les cas extrêmes ou lorsque vous n'avez pas encore de données.

Ici, Syntho se concentre sur les données structurées (données formatées dans des tableaux contenant des lignes et des colonnes, comme vous le voyez dans une feuille Excel), mais nous aimons toujours illustrer le concept de données synthétiques via des images, car elles sont plus attrayantes.

Types de données synthétiques

Trois types de données synthétiques existent dans le cadre des données synthétiques. Ces 3 types de données synthétiques sont : les données factices, les données synthétiques générées à partir de règles et les données synthétiques générées par l'intelligence artificielle (IA). Nous expliquons brièvement quels sont les 3 différents types de données synthétiques.

Données factices / données fictives

Les données fictives sont des données générées aléatoirement (par exemple par un générateur de données factices).

Par conséquent, les caractéristiques, les relations et les modèles statistiques qui se trouvent dans les données d'origine ne sont pas conservés, capturés et reproduits dans les données fictives générées. Par conséquent, la représentativité des données factices / données fictives est minime par rapport aux données d'origine.

  • Quand l'utiliser : pour remplacer les identifiants directs (PII) ou lorsque vous n'avez pas (encore) de données et que vous ne voulez pas passer du temps et de l'énergie à définir des règles.

Données synthétiques générées à base de règles

Les données synthétiques générées à partir de règles sont des données synthétiques générées par un ensemble prédéfini de règles. Des exemples de ces règles prédéfinies pourraient être que vous aimeriez avoir des données synthétiques avec une certaine valeur minimale, une valeur maximale ou une valeur moyenne. Toutes les caractéristiques, relations et modèles statistiques que vous aimeriez voir reproduits dans les données synthétiques générées à partir de règles doivent être prédéfinis.

Par conséquent, la qualité des données sera aussi bonne que l'ensemble de règles prédéfini. Il en résulte des défis lorsque la haute qualité des données est essentielle. Tout d'abord, on ne peut définir qu'un ensemble limité de règles à capturer dans les données synthétiques. De plus, la configuration de plusieurs règles entraînera généralement des chevauchements et des conflits de règles. De plus, vous ne couvrirez jamais entièrement toutes les règles pertinentes. De plus, il peut y avoir des règles pertinentes dont vous n'êtes même pas au courant. Et enfin (et ne pas oublier), cela vous prendra beaucoup de temps et d'énergie résultant en une solution non efficace.

  • Quand l'utiliser : lorsque vous n'avez pas (encore) de données

Données synthétiques générées par l'intelligence artificielle (IA)

Comme son nom l'indique, les données synthétiques générées par l'intelligence artificielle (IA) sont des données synthétiques générées par un algorithme d'intelligence artificielle (IA). Le modèle d'IA est formé sur les données d'origine pour apprendre toutes les caractéristiques, relations et modèles statistiques. Par la suite, cet algorithme d'IA est capable de générer des points de données entièrement nouveaux et de modéliser ces nouveaux points de données de manière à reproduire les caractéristiques, les relations et les modèles statistiques de l'ensemble de données d'origine. C'est ce que nous appelons un jumeau de données synthétiques.

Le modèle d'IA imite les données d'origine pour générer des jumeaux de données synthétiques qui peuvent être utilisés comme s'il s'agissait de données d'origine. Cela débloque divers cas d'utilisation dans lesquels les données synthétiques générées par l'IA peuvent être utilisées comme alternative à l'utilisation de données originales (sensibles), telles que l'utilisation de données synthétiques générées par l'IA comme données de test, de démonstration ou d'analyse.

Une visualisation de la création des données synthétiques

Par rapport aux données synthétiques générées à partir de règles : au lieu que vous étudiiez et définissiez des règles pertinentes, l'algorithme d'IA le fait automatiquement pour vous. Ici, non seulement les caractéristiques, les relations et les modèles statistiques dont vous avez connaissance seront couverts, mais également les caractéristiques, les relations et les modèles statistiques dont vous n'êtes même pas au courant.

  • Quand l'utiliser : lorsque vous avez (certaines) données en entrée à imiter ou à utiliser comme point de départ pour les fonctions de génération et d'augmentation de données intelligentes

Quel type de données synthétiques utiliser ?

Selon votre cas d'utilisation, une combinaison de données factices / données fictives, de données synthétiques générées à partir de règles ou de données synthétiques générées par l'intelligence artificielle (IA) est conseillée. Cet aperçu vous donne une première indication du type de données synthétiques à utiliser. Comme Syntho les prend tous en charge, n'hésitez pas à contacter nos experts pour approfondir votre cas d'utilisation avec nous.

Ce graphique présente différents types de données synthétiques

couverture du guide synthé

Enregistrez votre guide de données synthétiques maintenant !