QFP

Foire aux questions sur les données synthétiques

Compréhensible! Heureusement, nous avons les réponses et nous sommes là pour vous aider. Consultez notre foire aux questions.

Veuillez ouvrir une question ci-dessous et cliquer sur les liens pour trouver plus d'informations. Vous avez une question plus compliquée qui n'est pas mentionnée ici ? Demandez directement à nos experts !

Les questions les plus posées

Les données synthétiques font référence aux données générées artificiellement plutôt que collectées à partir de sources du monde réel. De manière générale, alors que des données originales sont collectées dans toutes vos interactions avec des personnes (clients, patients, etc.) et via tous vos processus internes, des données synthétiques sont générées par un algorithme informatique.

Les données synthétiques peuvent également être utilisées pour tester et évaluer des modèles dans un environnement contrôlé, ou pour protéger des informations sensibles en générant des données similaires aux données du monde réel mais ne contenant aucune information sensible. Les données synthétiques sont souvent utilisées comme alternative aux données sensibles à la vie privée et peuvent être utilisées comme données de test, pour l'analyse ou pour former l'apprentissage automatique.

En savoir plus

Garantir que les données synthétiques conservent la même qualité de données que les données d'origine peut être difficile et dépend souvent du cas d'utilisation spécifique et des méthodes utilisées pour générer les données synthétiques. Certaines méthodes de génération de données synthétiques, telles que les modèles génératifs, peuvent produire des données très similaires aux données d'origine. Question clé : comment le démontrer ?

Il existe plusieurs moyens de garantir la qualité des données synthétiques :

  • Mesures de la qualité des données via notre rapport sur la qualité des données: Une façon de s'assurer que les données synthétiques conservent la même qualité de données que les données d'origine consiste à utiliser des métriques de qualité des données pour comparer les données synthétiques aux données d'origine. Ces mesures peuvent être utilisées pour mesurer des éléments tels que la similarité, la précision et l'exhaustivité des données. Le logiciel Syntho comprenait un rapport sur la qualité des données avec diverses métriques de qualité des données.
  • Évaluation externe: étant donné que la qualité des données synthétiques par rapport aux données originales est essentielle, nous avons récemment effectué une évaluation avec les experts en données de SAS (leader du marché de l'analyse) pour démontrer la qualité des données synthétiques par Syntho par rapport aux données réelles. Edwin van Unen, expert en analyse de SAS, a évalué les ensembles de données synthétiques générés par Syntho via diverses évaluations d'analyse (IA) et a partagé les résultats. Regardez un court récapitulatif de cette vidéo ici.
  • Test et évaluation par vous-même: les données synthétiques peuvent être testées et évaluées en les comparant à des données du monde réel ou en les utilisant pour former des modèles d'apprentissage automatique et en comparant leurs performances à des modèles formés sur des données du monde réel. Pourquoi ne pas tester vous-même la qualité des données synthétiques ? Demandez à nos experts les possibilités ici

Il est important de noter que les données synthétiques ne peuvent jamais garantir d'être 100 % similaires aux données d'origine, mais elles peuvent être suffisamment proches pour être utiles pour un cas d'utilisation spécifique. Ce cas d'utilisation spécifique peut même être une analyse avancée ou des modèles d'apprentissage automatique de formation.

L'« anonymisation » classique n'est pas toujours la meilleure solution, car :

  1. Risque de confidentialité - tu auras toujours
    un risque pour la vie privée. Appliquer ces
    techniques d'anonymisation classiques
    le rend seulement plus difficile, mais pas
    impossible d'identifier les individus.
  2. Détruire des données - Plus vous
    anonymisez, mieux vous protégez
    votre vie privée, mais plus vous
    détruire vos données. Ce n'est pas ce
    que vous voulez pour l'analyse, car
    les données détruites entraîneront de mauvaises
    idées.
  3. C'est long - c'est une solution
    cela prend beaucoup de temps, car
    ces techniques fonctionnent différemment
    par jeu de données et par type de données.

Les données synthétiques visent à résoudre toutes ces lacunes. La différence est si frappante que nous en avons fait une vidéo. Regardez-le ici.

Foire aux Questions

Données synthétiques

Généralement, la plupart de nos clients utilisent des données synthétiques pour :

  • Tests et développement de logiciels
  • Données synthétiques pour l'analyse, le développement de modèles et l'analyse avancée (IA & ML)
  • Démonstrations de produits

En savoir plus et explorer les cas d'utilisation.

Un jumeau de données synthétiques est une réplique générée par un algorithme d'un ensemble de données et/ou d'une base de données du monde réel. Avec un jumeau de données synthétiques, Syntho vise à imiter un ensemble de données ou une base de données d'origine aussi proche que possible des données d'origine pour créer une représentation réaliste de l'original. Avec un jumeau de données synthétiques, nous visons une qualité supérieure des données synthétiques par rapport aux données d'origine. Nous le faisons avec notre logiciel de données synthétiques qui utilise des modèles d'IA de pointe. Ces modèles d'IA génèrent des points de données entièrement nouveaux et les modélisent de manière à préserver les caractéristiques, les relations et les modèles statistiques des données d'origine à tel point que vous pouvez les utiliser comme s'il s'agissait de données d'origine.

Cela peut être utilisé à diverses fins, telles que tester et former des modèles d'apprentissage automatique, simuler des scénarios pour la recherche et le développement et créer des environnements virtuels pour la formation et l'éducation. Les jumeaux de données synthétiques peuvent être utilisés pour créer des données réalistes et représentatives qui peuvent être utilisées à la place des données du monde réel lorsqu'elles ne sont pas disponibles ou lorsque l'utilisation des données du monde réel serait peu pratique ou contraire à l'éthique en raison de réglementations strictes en matière de confidentialité des données.

Lire la suite.

Oui. Nous proposons diverses fonctionnalités d'optimisation et d'augmentation des données synthétiques à valeur ajoutée, y compris des moqueurs, pour faire passer vos données au niveau supérieur.

Lire la suite.

Les données factices et les données synthétiques générées par l'IA sont deux types de données synthétiques, mais elles sont générées de différentes manières et servent à des fins différentes.

Les données fictives sont un type de données synthétiques créées manuellement et souvent utilisées à des fins de test et de développement. Il est généralement utilisé pour simuler le comportement de données du monde réel dans un environnement contrôlé et est souvent utilisé pour tester la fonctionnalité d'un système ou d'une application. Il est souvent simple, facile à générer et ne nécessite pas de modèles ou d'algorithmes complexes. Souvent, on désigne également les fausses données comme des « données factices » ou des « fausses données ».

Les données synthétiques générées par l'IA, quant à elles, sont générées à l'aide de techniques d'intelligence artificielle, telles que l'apprentissage automatique ou les modèles génératifs. Il est utilisé pour créer des données réalistes et représentatives qui peuvent être utilisées à la place des données du monde réel lorsque l'utilisation des données du monde réel serait peu pratique ou contraire à l'éthique en raison de réglementations strictes en matière de confidentialité. Il est souvent plus complexe et nécessite plus de ressources informatiques que les données fictives manuelles. En conséquence, il est beaucoup plus réaliste et imite le plus fidèlement possible les données d'origine.

En résumé, les données fictives sont créées manuellement et sont généralement utilisées pour les tests et le développement, tandis que les données synthétiques générées par l'IA sont créées à l'aide de techniques d'intelligence artificielle et sont utilisées pour créer des données représentatives et réalistes.

Plus de questions? Demandez à nos experts

Qualité des données

Garantir que les données synthétiques conservent la même qualité de données que les données d'origine peut être difficile et dépend souvent du cas d'utilisation spécifique et des méthodes utilisées pour générer les données synthétiques. Certaines méthodes de génération de données synthétiques, telles que les modèles génératifs, peuvent produire des données très similaires aux données d'origine. Question clé : comment le démontrer ?

Il existe plusieurs moyens de garantir la qualité des données synthétiques :

  • Mesures de la qualité des données via notre rapport sur la qualité des données: Une façon de s'assurer que les données synthétiques conservent la même qualité de données que les données d'origine consiste à utiliser des métriques de qualité des données pour comparer les données synthétiques aux données d'origine. Ces mesures peuvent être utilisées pour mesurer des éléments tels que la similarité, la précision et l'exhaustivité des données. Le logiciel Syntho comprenait un rapport sur la qualité des données avec diverses métriques de qualité des données.
  • Évaluation externe: étant donné que la qualité des données synthétiques par rapport aux données originales est essentielle, nous avons récemment effectué une évaluation avec les experts en données de SAS (leader du marché de l'analyse) pour démontrer la qualité des données synthétiques par Syntho par rapport aux données réelles. Edwin van Unen, expert en analyse de SAS, a évalué les ensembles de données synthétiques générés par Syntho via diverses évaluations d'analyse (IA) et a partagé les résultats. Regardez un court récapitulatif de cette vidéo ici.
  • Test et évaluation par vous-même: les données synthétiques peuvent être testées et évaluées en les comparant à des données du monde réel ou en les utilisant pour former des modèles d'apprentissage automatique et en comparant leurs performances à des modèles formés sur des données du monde réel. Pourquoi ne pas tester vous-même la qualité des données synthétiques ? Demandez à nos experts les possibilités ici

Il est important de noter que les données synthétiques ne peuvent jamais garantir d'être 100 % similaires aux données d'origine, mais elles peuvent être suffisamment proches pour être utiles pour un cas d'utilisation spécifique. Ce cas d'utilisation spécifique peut même être une analyse avancée ou des modèles d'apprentissage automatique de formation.

Oui c'est le cas. Les données synthétiques contiennent même des modèles dont vous ne saviez pas qu'ils étaient présents dans les données d'origine.

Mais ne vous contentez pas de nous croire sur parole. Les experts analytiques de SAS (leader mondial de l'analytique) ont effectué une évaluation (IA) de nos données synthétiques et les ont comparées aux données d'origine. Curieuse? Regarder le tout l'événement ici ou regardez la version courte sur la qualité des données ici.

Oui. Notre plateforme est optimisée pour les bases de données et par conséquent, la préservation de l'intégrité référentielle entre les jeux de données dans la base de données.

Curieux d'en savoir plus à ce sujet ?

Demandez directement à nos experts.

Confidentialité

Non, nous ne le faisons pas. Nous pouvons facilement déployer le Syntho Engine sur site ou dans votre cloud privé via docker.

Non. Nous avons optimisé notre plateforme de manière à ce qu'elle puisse être facilement déployée dans l'environnement de confiance du client. Cela garantit que les données ne quitteront jamais l'environnement de confiance du client. Les options de déploiement pour l'environnement de confiance du client sont « sur site » et dans « l'environnement cloud du client (cloud privé) ».

Facultatif : Syntho prend en charge une version hébergée dans le "cloud Syntho".

Non. Le Syntho Engine est une plateforme en libre-service. En conséquence, la génération de données synthétiques avec le Syntho Engine est possible d'une manière qui, dans le end-to-end processus, Syntho n'est jamais en mesure de voir et n'a jamais besoin de traiter les données.

Oui, nous le faisons via notre rapport QA.

 

Lors de la synthèse d'un jeu de données, il est essentiel de démontrer qu'on n'est pas en mesure de ré-identifier les individus. Dans cette vidéo, Marijn introduit des mesures de confidentialité qui sont dans notre rapport de qualité pour le démontrer.

Le rapport QA de Syntho contient trois standard d'industrie métriques pour évaluer la confidentialité des données. L'idée derrière chacune de ces mesures est la suivante :

  • Données synthétiques (S) doit être "aussi proche que possible", mais "pas trop proche" des données cibles (T).
  • Données retenues sélectionnées au hasard (H) détermine la référence pour "trop ​​proche".
  • A solution parfaite génère de nouvelles données synthétiques qui se comportent exactement comme les données d'origine, mais qui n'ont jamais été vues auparavant (= H).

L'un des cas d'utilisation spécifiquement mis en évidence par l'autorité néerlandaise de protection des données consiste à utiliser des données synthétiques comme données de test.

Plus peut être trouvé dans cet article.

Moteur de synthèse

Le moteur Syntho est expédié dans un conteneur Docker et peut être facilement déployé et connecté à l'environnement de votre choix.

Les options de déploiement possibles incluent :

  • Sur place
  • Tout cloud (privé)
  • Tout autre environnement

En savoir plus.

Syntho vous permet de vous connecter facilement à vos bases de données, applications, pipelines de données ou systèmes de fichiers. 

Nous prenons en charge divers connecteurs intégrés afin que vous puissiez vous connecter à l'environnement source (où les données d'origine sont stockées) et à l'environnement de destination (où vous souhaitez écrire vos données synthétiques) pour un end-to-end approche intégrée.

Fonctionnalités de connexion que nous prenons en charge :

  • Plug-and-play avec Docker
  • 20+ connecteurs de base de données
  • Plus de 20 connecteurs de système de fichiers

En savoir plus.

Naturellement, le temps de génération dépend de la taille de la base de données. En moyenne, une table de moins de 1 million d'enregistrements est synthétisée en moins de 5 minutes.

Les algorithmes d'apprentissage automatique de Syntho peuvent mieux généraliser les fonctionnalités avec plus d'enregistrements d'entités disponibles, ce qui réduit le risque de confidentialité. Un rapport minimum colonne/ligne de 1:500 est recommandé. Par exemple, si votre table source a 6 colonnes, elle doit contenir un minimum de 3000 lignes.

Pas du tout. Bien que cela puisse demander un certain effort pour bien comprendre les avantages, le fonctionnement et les cas d'utilisation des données synthétiques, le processus de synthèse est très simple et toute personne ayant des connaissances informatiques de base peut le faire. Pour plus d'informations sur le processus de synthèse, consultez cette page or demander une démo.

Le moteur Syntho fonctionne mieux sur des données tabulaires structurées (tout ce qui contient des lignes et des colonnes). Au sein de ces structures, nous prenons en charge les types de données suivants :

  • Structures de données formatées en tableaux (catégoriques, numériques, etc.)
  • Identifiants directs et PII
  • Grands ensembles de données et bases de données
  • Données de localisation géographique (comme le GPS)
  • Données de séries chronologiques
  • Bases de données multi-tables (avec intégrité référentielle)
  • Données de texte ouvertes

 

Prise en charge de données complexes
Outre tous les types de données tabulaires classiques, le moteur Syntho prend en charge les types de données complexes et les structures de données complexes.

  • Des séries chronologiques
  • Bases de données multi-tables
  • Texte ouvert

En savoir plus.

Non, nous avons optimisé notre plate-forme pour minimiser les exigences de calcul (par exemple, aucun GPU requis), sans compromettre la précision des données. De plus, nous prenons en charge la mise à l'échelle automatique, afin que l'on puisse synthétiser d'énormes bases de données.

Oui. Le logiciel Syntho est optimisé pour les bases de données contenant plusieurs tables.

Pour ce faire, Syntho détecte automatiquement les types de données, les schémas et les formats pour maximiser la précision des données. Pour les bases de données multi-tables, nous prenons en charge l'inférence et la synthèse automatiques des relations entre les tables afin de préserver l'intégrité référentielle.

groupe de personnes souriant

Les données sont synthétiques, mais notre équipe est réelle !

Contacter Syntho et un de nos experts prendra contact avec vous à la vitesse de la lumière pour explorer la valeur des données synthétiques !