¿Qué son los datos sintéticos?

Un curso intensivo de datos sintéticos

 

 

Introducción

¿Qué son los datos sintéticos?

La respuesta es relativamente simple. Mientras que los datos originales se recopilan en todas sus interacciones con personas reales (p. ej., clientes, pacientes, empleados, etc.) ya través de todos sus procesos internos, los datos sintéticos se generan mediante un algoritmo informático. Este algoritmo informático genera puntos de datos completamente nuevos y artificiales.

Resuelva los desafíos de privacidad de datos

Los datos generados sintéticamente consisten en puntos de datos completamente nuevos y artificiales sin relaciones uno a uno con los datos originales. Por lo tanto, ninguno de los puntos de datos sintéticos se puede rastrear o aplicar ingeniería inversa a los datos originales. Como resultado, los datos sintéticos están exentos de las normas de privacidad, como el RGPD, y sirven como solución para resolver y superar los desafíos de privacidad de datos.

Aumentar y simular

El aspecto generativo de la generación de datos sintéticos permite aumentar y simular datos completamente nuevos. Esto funciona como una solución cuando no tiene suficientes datos (escasez de datos), le gustaría aumentar la muestra de los casos extremos o cuando aún no tiene datos.

Aquí, el enfoque de Syntho son los datos estructurados (datos formateados en tablas que contienen filas y columnas, como se ve en las hojas de Excel), pero siempre nos gusta ilustrar el concepto de datos sintéticos a través de imágenes, porque es más atractivo.

Tipos de datos sintéticos

Existen tres tipos de datos sintéticos dentro del paraguas de datos sintéticos. Esos 3 tipos de datos sintéticos son: datos ficticios, datos sintéticos generados en base a reglas y datos sintéticos generados por inteligencia artificial (IA). En breve explicamos cuáles son los 3 tipos diferentes de datos sintéticos.

Datos ficticios/datos simulados

Los datos ficticios son datos generados aleatoriamente (por ejemplo, por un generador de datos ficticio).

En consecuencia, las características, relaciones y patrones estadísticos que se encuentran en los datos originales no se conservan, capturan ni reproducen en los datos ficticios generados. Por lo tanto, la representatividad de los datos ficticios/datos simulados es mínima en comparación con los datos originales.

  • Cuándo usarlo: para reemplazar identificadores directos (PII) o cuando no tiene datos (todavía) y no quiere gastar tiempo y energía en definir reglas.

Datos sintéticos generados basados ​​en reglas

Los datos sintéticos generados basados ​​en reglas son datos sintéticos generados por un conjunto predefinido de reglas. Ejemplos de esas reglas predefinidas podrían ser que le gustaría tener datos sintéticos con un cierto valor mínimo, valor máximo o valor promedio. Cualquiera de las características, relaciones y patrones estadísticos que le gustaría que se reprodujeran en los datos sintéticos generados basados ​​en reglas, deben estar predefinidos.

En consecuencia, la calidad de los datos será tan buena como el conjunto de reglas predefinido. Esto genera desafíos cuando la alta calidad de los datos es esencial. Primero, uno puede definir solo un conjunto limitado de reglas para ser capturadas en los datos sintéticos. Además, la configuración de varias reglas normalmente dará como resultado reglas superpuestas y en conflicto. Además, nunca cubrirá completamente todas las reglas relevantes. Además, puede haber reglas relevantes de las que ni siquiera esté al tanto. Y finalmente (y no lo olvide), esto le llevará mucho tiempo y energía, lo que resultará en una solución no eficiente.

  • Cuándo usarlo: cuando no tienes datos (todavía)

Datos sintéticos generados por inteligencia artificial (IA)

Como es de esperar por el nombre, los datos sintéticos generados por inteligencia artificial (IA) son datos sintéticos generados por un algoritmo de inteligencia artificial (IA). El modelo de IA se entrena con los datos originales para aprender todas las características, relaciones y patrones estadísticos. A partir de entonces, este algoritmo de IA puede generar puntos de datos completamente nuevos y modela esos nuevos puntos de datos de tal manera que reproduce las características, las relaciones y los patrones estadísticos del conjunto de datos original. Esto es lo que llamamos un gemelo de datos sintéticos.

El modelo de IA imita los datos originales para generar gemelos de datos sintéticos que se pueden usar como si fueran datos originales. Esto desbloquea varios casos de uso en los que los datos sintéticos generados por IA se pueden usar como alternativa para usar datos originales (sensibles), como el uso de datos sintéticos generados por IA como datos de prueba, datos de demostración o para análisis.

Una visualización de cómo se crean los datos sintéticos

En comparación con los datos sintéticos generados basados ​​en reglas: en lugar de estudiar y definir reglas relevantes, el algoritmo de IA lo hace automáticamente por usted. Aquí, no solo se cubrirán las características, las relaciones y los patrones estadísticos de los que usted es consciente, sino también las características, las relaciones y los patrones estadísticos de los que ni siquiera es consciente.

  • Cuándo usarlo: cuando tiene (algunos) datos como entrada para imitar o usar como punto de partida para la generación inteligente de datos y funciones de aumento

¿Qué tipo de datos sintéticos usar?

Según su caso de uso, se recomienda una combinación de datos ficticios/datos simulados, datos sintéticos generados basados ​​en reglas o datos sintéticos generados por inteligencia artificial (IA). Esta descripción general le proporciona una primera indicación de qué tipo de datos sintéticos utilizar. Como Syntho es compatible con todos ellos, no dude en ponerse en contacto con nuestros expertos para profundizar en su caso de uso con nosotros.

Este gráfico presenta diferentes tipos de datos sintéticos

cubierta de guía de sintetizador

¡Guarde su guía de datos sintéticos ahora!