Foire aux questions

QFP

Foire aux questions sur les données synthétiques

Compréhensible! Heureusement, nous avons les réponses et nous sommes là pour vous aider. Consultez notre foire aux questions.

Veuillez ouvrir une question ci-dessous et cliquer sur les liens pour trouver plus d'informations. Vous avez une question plus compliquée qui n'est pas mentionnée ici ? Demandez directement à nos experts !

Les questions les plus posées

Qu'est-ce que les données synthétiques ?

Les données synthétiques font référence aux données générées artificiellement plutôt que collectées à partir de sources du monde réel. De manière générale, alors que des données originales sont collectées dans toutes vos interactions avec des personnes (clients, patients, etc.) et via tous vos processus internes, des données synthétiques sont générées par un algorithme informatique.

Les données synthétiques peuvent également être utilisées pour tester et évaluer des modèles dans un environnement contrôlé, ou pour protéger des informations sensibles en générant des données similaires aux données du monde réel mais ne contenant aucune information sensible. Les données synthétiques sont souvent utilisées comme alternative aux données sensibles à la vie privée et peuvent être utilisées comme données de test, pour l'analyse ou pour former l'apprentissage automatique.

Comment Syntho garantit-il que les données synthétiques conservent la même qualité de données que les données d'origine ?

Garantir que les données synthétiques conservent la même qualité de données que les données d'origine peut être difficile et dépend souvent du cas d'utilisation spécifique et des méthodes utilisées pour générer les données synthétiques. Certaines méthodes de génération de données synthétiques, telles que les modèles génératifs, peuvent produire des données très similaires aux données d'origine. Question clé : comment le démontrer ?

Il existe plusieurs moyens de garantir la qualité des données synthétiques :

Mesures de la qualité des données via notre rapport sur la qualité des données: Une façon de s'assurer que les données synthétiques conservent la même qualité de données que les données d'origine consiste à utiliser des métriques de qualité des données pour comparer les données synthétiques aux données d'origine. Ces mesures peuvent être utilisées pour mesurer des éléments tels que la similarité, la précision et l'exhaustivité des données. Le logiciel Syntho comprenait un rapport sur la qualité des données avec diverses métriques de qualité des données.
Évaluation externe: étant donné que la qualité des données synthétiques par rapport aux données originales est essentielle, nous avons récemment effectué une évaluation avec les experts en données de SAS (leader du marché de l'analyse) pour démontrer la qualité des données synthétiques par Syntho par rapport aux données réelles. Edwin van Unen, expert en analyse de SAS, a évalué les ensembles de données synthétiques générés par Syntho via diverses évaluations d'analyse (IA) et a partagé les résultats. Regardez un court récapitulatif de cette vidéo ici.
Test et évaluation par vous-même: les données synthétiques peuvent être testées et évaluées en les comparant à des données du monde réel ou en les utilisant pour former des modèles d'apprentissage automatique et en comparant leurs performances à des modèles formés sur des données du monde réel. Pourquoi ne pas tester vous-même la qualité des données synthétiques ? Demandez à nos experts les possibilités ici.

Il est important de noter que les données synthétiques ne peuvent jamais garantir d'être 100 % similaires aux données d'origine, mais elles peuvent être suffisamment proches pour être utiles pour un cas d'utilisation spécifique. Ce cas d'utilisation spécifique peut même être une analyse avancée ou des modèles d'apprentissage automatique de formation.

Actuellement, nous anonymisons nos données, pourquoi utiliser des données synthétiques ?

L'« anonymisation » classique n'est pas toujours la meilleure solution, car :

Risque de confidentialité - tu auras toujours
un risque pour la vie privée. Appliquer ces
techniques d'anonymisation classiques
le rend seulement plus difficile, mais pas
impossible d'identifier les individus.
Détruire des données - Plus vous
anonymisez, mieux vous protégez
votre vie privée, mais plus vous
détruire vos données. Ce n'est pas ce
que vous voulez pour l'analyse, car
les données détruites entraîneront de mauvaises
idées.
C'est long - c'est une solution
cela prend beaucoup de temps, car
ces techniques fonctionnent différemment
par jeu de données et par type de données.

Les données synthétiques visent à résoudre toutes ces lacunes. La différence est si frappante que nous en avons fait une vidéo. Regardez-le ici.

Données synthétiques

Quels sont les cas d'utilisation typiques des données synthétiques ?

Généralement, la plupart de nos clients utilisent des données synthétiques pour :

Tests et développement de logiciels
Données synthétiques pour l'analyse, le développement de modèles et l'analyse avancée (IA & ML)
Démonstrations de produits

En savoir plus et explorer les cas d'utilisation.

Qu'entendez-vous par générer un « jumeau de données synthétique » ?

Un jumeau de données synthétiques est une réplique générée par un algorithme d'un ensemble de données et/ou d'une base de données du monde réel. Avec un jumeau de données synthétiques, Syntho vise à imiter un ensemble de données ou une base de données d'origine aussi proche que possible des données d'origine pour créer une représentation réaliste de l'original. Avec un jumeau de données synthétiques, nous visons une qualité supérieure des données synthétiques par rapport aux données d'origine. Nous le faisons avec notre logiciel de données synthétiques qui utilise des modèles d'IA de pointe. Ces modèles d'IA génèrent des points de données entièrement nouveaux et les modélisent de manière à préserver les caractéristiques, les relations et les modèles statistiques des données d'origine à tel point que vous pouvez les utiliser comme s'il s'agissait de données d'origine.

Cela peut être utilisé à diverses fins, telles que tester et former des modèles d'apprentissage automatique, simuler des scénarios pour la recherche et le développement et créer des environnements virtuels pour la formation et l'éducation. Les jumeaux de données synthétiques peuvent être utilisés pour créer des données réalistes et représentatives qui peuvent être utilisées à la place des données du monde réel lorsqu'elles ne sont pas disponibles ou lorsque l'utilisation des données du monde réel serait peu pratique ou contraire à l'éthique en raison de réglementations strictes en matière de confidentialité des données.

Soutenez-vous les moqueurs et les fausses données ?

Oui. Nous proposons diverses fonctionnalités d'optimisation et d'augmentation des données synthétiques à valeur ajoutée, y compris des moqueurs, pour faire passer vos données au niveau supérieur.

Quelle est la différence entre les données synthétiques (un jumeau de données synthétiques) et les données factices ?

Les données factices et les données synthétiques générées par l'IA sont deux types de données synthétiques, mais elles sont générées de différentes manières et servent à des fins différentes.

Les données fictives sont un type de données synthétiques créées manuellement et souvent utilisées à des fins de test et de développement. Il est généralement utilisé pour simuler le comportement de données du monde réel dans un environnement contrôlé et est souvent utilisé pour tester la fonctionnalité d'un système ou d'une application. Il est souvent simple, facile à générer et ne nécessite pas de modèles ou d'algorithmes complexes. Souvent, on désigne également les fausses données comme des « données factices » ou des « fausses données ».

Les données synthétiques générées par l'IA, quant à elles, sont générées à l'aide de techniques d'intelligence artificielle, telles que l'apprentissage automatique ou les modèles génératifs. Il est utilisé pour créer des données réalistes et représentatives qui peuvent être utilisées à la place des données du monde réel lorsque l'utilisation des données du monde réel serait peu pratique ou contraire à l'éthique en raison de réglementations strictes en matière de confidentialité. Il est souvent plus complexe et nécessite plus de ressources informatiques que les données fictives manuelles. En conséquence, il est beaucoup plus réaliste et imite le plus fidèlement possible les données d'origine.

En résumé, les données fictives sont créées manuellement et sont généralement utilisées pour les tests et le développement, tandis que les données synthétiques générées par l'IA sont créées à l'aide de techniques d'intelligence artificielle et sont utilisées pour créer des données représentatives et réalistes.

Plus de questions? Demandez à nos experts

Qualité des données

Comment Syntho démontre-t-il la qualité des données synthétiques générées ?

Il existe plusieurs moyens de garantir la qualité des données synthétiques :

Mesures de la qualité des données via notre rapport sur la qualité des données: Une façon de s'assurer que les données synthétiques conservent la même qualité de données que les données d'origine consiste à utiliser des métriques de qualité des données pour comparer les données synthétiques aux données d'origine. Ces mesures peuvent être utilisées pour mesurer des éléments tels que la similarité, la précision et l'exhaustivité des données. Le logiciel Syntho comprenait un rapport sur la qualité des données avec diverses métriques de qualité des données.
Évaluation externe: étant donné que la qualité des données synthétiques par rapport aux données originales est essentielle, nous avons récemment effectué une évaluation avec les experts en données de SAS (leader du marché de l'analyse) pour démontrer la qualité des données synthétiques par Syntho par rapport aux données réelles. Edwin van Unen, expert en analyse de SAS, a évalué les ensembles de données synthétiques générés par Syntho via diverses évaluations d'analyse (IA) et a partagé les résultats. Regardez un court récapitulatif de cette vidéo ici.
Test et évaluation par vous-même: les données synthétiques peuvent être testées et évaluées en les comparant à des données du monde réel ou en les utilisant pour former des modèles d'apprentissage automatique et en comparant leurs performances à des modèles formés sur des données du monde réel. Pourquoi ne pas tester vous-même la qualité des données synthétiques ? Demandez à nos experts les possibilités ici.

La qualité des données synthétiques générées par l'IA est-elle suffisante pour des analyses avancées (par exemple, AI, ML, BI) ?

Oui c'est le cas. Les données synthétiques contiennent même des modèles dont vous ne saviez pas qu'ils étaient présents dans les données d'origine.

Mais ne vous contentez pas de nous croire sur parole. Les experts analytiques de SAS (leader mondial de l'analytique) ont effectué une évaluation (IA) de nos données synthétiques et les ont comparées aux données d'origine. Curieuse? Regarder le tout l'événement ici ou regardez la version courte sur la qualité des données ici.

Préservez-vous l'intégrité référentielle sur les bases de données multi-tables ?

Oui. Notre plateforme est optimisée pour les bases de données et par conséquent, la préservation de l'intégrité référentielle entre les jeux de données dans la base de données.

Curieux d'en savoir plus à ce sujet ?

Demandez directement à nos experts.

Confidentialité

Syntho a-t-il besoin d'accéder à mes données pour créer des données synthétiques ?

Non, nous ne le faisons pas. Nous pouvons facilement déployer le Syntho Engine sur site ou dans votre cloud privé via docker.

Dois-je partager mes données avec Syntho pour générer des données synthétiques ?

Non. Nous avons optimisé notre plateforme de manière à ce qu'elle puisse être facilement déployée dans l'environnement de confiance du client. Cela garantit que les données ne quitteront jamais l'environnement de confiance du client. Les options de déploiement pour l'environnement de confiance du client sont « sur site » et dans « l'environnement cloud du client (cloud privé) ».

Facultatif : Syntho prend en charge une version hébergée dans le "cloud Syntho".

Est-ce que Syntho voit et/ou traite mes données ?

Non. Le Syntho Engine est une plateforme en libre-service. En conséquence, la génération de données synthétiques avec le Syntho Engine est possible d'une manière qui, dans le end-to-end processus, Syntho n'est jamais en mesure de voir et n'a jamais besoin de traiter les données.

Comment démontrez-vous la confidentialité ?

Oui, nous le faisons via notre rapport QA.

Lors de la synthèse d'un jeu de données, il est essentiel de démontrer qu'on n'est pas en mesure de ré-identifier les individus. Dans cette vidéo, Marijn introduit des mesures de confidentialité qui sont dans notre rapport de qualité pour le démontrer.

Quelles sont les mesures de confidentialité dans le rapport Syntho QA ?

Le rapport QA de Syntho contient trois standard d'industrie métriques pour évaluer la confidentialité des données. L'idée derrière chacune de ces mesures est la suivante :

Données synthétiques (S) doit être "aussi proche que possible", mais "pas trop proche" des données cibles (T).
Données retenues sélectionnées au hasard (H) détermine la référence pour "trop proche".
A solution parfaite génère de nouvelles données synthétiques qui se comportent exactement comme les données d'origine, mais qui n'ont jamais été vues auparavant (= H).

Que dit l'Autorité néerlandaise de protection des données à propos de l'utilisation de données synthétiques ?

L'un des cas d'utilisation spécifiquement mis en évidence par l'autorité néerlandaise de protection des données consiste à utiliser des données synthétiques comme données de test.

Plus peut être trouvé dans cet article.

Moteur de synthèse

Quelles options de déploiement prenez-vous en charge ?

Le moteur Syntho est expédié dans un conteneur Docker et peut être facilement déployé et connecté à l'environnement de votre choix.

Les options de déploiement possibles incluent :

Sur place
Tout cloud (privé)
Tout autre environnement

Comment connectez-vous le Syntho Engine à vos données ?

Syntho vous permet de vous connecter facilement à vos bases de données, applications, pipelines de données ou systèmes de fichiers.

Nous prenons en charge divers connecteurs intégrés afin que vous puissiez vous connecter à l'environnement source (où les données d'origine sont stockées) et à l'environnement de destination (où vous souhaitez écrire vos données synthétiques) pour un end-to-end approche intégrée.

Fonctionnalités de connexion que nous prenons en charge :

Plug-and-play avec Docker
20+ connecteurs de base de données
Plus de 20 connecteurs de système de fichiers

Combien de temps faut-il pour générer des données synthétiques ?

Naturellement, le temps de génération dépend de la taille de la base de données. En moyenne, une table de moins de 1 million d'enregistrements est synthétisée en moins de 5 minutes.

De combien d'enregistrements d'entraînement ai-je besoin pour synthétiser mes données ?

Les algorithmes d'apprentissage automatique de Syntho peuvent mieux généraliser les fonctionnalités avec plus d'enregistrements d'entités disponibles, ce qui réduit le risque de confidentialité. Un rapport minimum colonne/ligne de 1:500 est recommandé. Par exemple, si votre table source a 6 colonnes, elle doit contenir un minimum de 3000 lignes.

Des compétences spécifiques sont-elles requises pour utiliser le moteur Syntho ?

Pas du tout. Bien que cela puisse demander un certain effort pour bien comprendre les avantages, le fonctionnement et les cas d'utilisation des données synthétiques, le processus de synthèse est très simple et toute personne ayant des connaissances informatiques de base peut le faire. Pour plus d'informations sur le processus de synthèse, consultez cette page or demander une démo.

Quels types de données prenez-vous en charge ?

Le moteur Syntho fonctionne mieux sur des données tabulaires structurées (tout ce qui contient des lignes et des colonnes). Au sein de ces structures, nous prenons en charge les types de données suivants :

Structures de données formatées en tableaux (catégoriques, numériques, etc.)
Identifiants directs et PII
Grands ensembles de données et bases de données
Données de localisation géographique (comme le GPS)
Données de séries chronologiques
Bases de données multi-tables (avec intégrité référentielle)
Données de texte ouvertes

Prise en charge de données complexes
Outre tous les types de données tabulaires classiques, le moteur Syntho prend en charge les types de données complexes et les structures de données complexes.

Des séries chronologiques
Bases de données multi-tables
Texte ouvert

Ai-je besoin d'un GPU pour utiliser Syntho ?

Non, nous avons optimisé notre plate-forme pour minimiser les exigences de calcul (par exemple, aucun GPU requis), sans compromettre la précision des données. De plus, nous prenons en charge la mise à l'échelle automatique, afin que l'on puisse synthétiser d'énormes bases de données.

L'intégrité référentielle sera-t-elle préservée lorsque j'aurai une base de données ?

Oui. Le logiciel Syntho est optimisé pour les bases de données contenant plusieurs tables.

Pour ce faire, Syntho détecte automatiquement les types de données, les schémas et les formats pour maximiser la précision des données. Pour les bases de données multi-tables, nous prenons en charge l'inférence et la synthèse automatiques des relations entre les tables afin de préserver l'intégrité référentielle.

Les données sont synthétiques, mais notre équipe est réelle !

Contacter Syntho et un de nos experts prendra contact avec vous à la vitesse de la lumière pour explorer la valeur des données synthétiques !

Qu'est-ce que les données synthétiques ?

Rapport d'assurance qualité

Évaluation externe par SAS

Données synthétiques de séries chronologiques

Analyseur d'informations personnelles

Données simulées synthétiques

Cartographie cohérente

Désidentification et synthèse

Données synthétiques basées sur des règles

Sous-ensemble

Déploiement et intégration

Connecteurs RF

Fonctionnalités étendues

Données prises en charge

Documentation utilisateur

PLANIFIEZ UNE DÉMO

Prix

Données synthétiques comme données de test

Données synthétiques pour l'analyse

Données synthétiques pour le partage de données

Données synthétiques pour les démos de produits

Système de santé

financier

Organisations publiques

Documentation utilisateur

Livres blancs et guides

Blog

Webinaires

Études de cas

Prix

À propos de nous

Carrières

QFP