Entonces, ¿los datos sintéticos son amigos o enemigos? No es lo mismo. A decir verdad, aquí tenemos un ejemplo clásico de arma de doble filo. Los datos sintéticos crean nuevos problemas y al mismo tiempo resuelven algunos existentes. Y esto no sólo es válido para la privacidad, sino también para fines de rendimiento, por ejemplo escalabilidad y aumento de datos puede oponerse amplificación de sesgo o generalización preocupaciones Ésta no es razón para abandonar o volver al mismo tipo de artículos y análisis de pros y contras de siempre, que generalizan demasiado o se centran en un pequeño punto del panorama general. Lo que también ciega a la persona que lee un determinado artículo en el bosque detrás del árbol.
La utilidad y conveniencia de utilizar datos sintéticos en el proceso de entrenamiento de modelos de ML siempre dependerá de las circunstancias específicas del caso. Dependerá del tipo de datos que necesitemos para entrenar el modelo (personal, de privacidad, altamente sensible), la cantidad de datos necesarios, la disponibilidad de los datos y el propósito previsto del modelo (como el sesgo o la mejora del sesgo). . tendrán pesos diferentes en los modelos de evaluación de la solvencia o en los de optimización de la cadena de suministro). Así que podríamos empezar respondiendo este tipo de preguntas para cada contexto dado y luego considerar los diversos cargos existentes en un lugar más apropiado.
Métodos principales:
· Los datos sintéticos nunca son anónimos.
· Los datos sintéticos deben ser siempre anónimos.
· Los datos sintéticos no giran sólo en torno a la privacidad.
· Aunque siempre ayudan a proteger la privacidad, los datos sintéticos pueden dar lugar a otros problemas de protección de datos.
· Privacidad y protección de datos no son lo mismo.
· Algunos problemas de protección de datos también pueden ser problemas de rendimiento. Esto es bueno porque significa que todos (al menos a veces) estamos intentando arreglar lo mismo.
· Todas las transacciones que involucran datos sintéticos son altamente específicas del contexto y deben discutirse en sus respectivos contextos.
(1) Búsqueda de datos sintéticos: ventajas y casos de uso, Intuit Mailchimp, https://mailchimp.com/resources/what-is-synthetic-data/
(2) John Anthony R, Cuando se trata de IA: los datos sintéticos tienen un pequeño y sucio secreto, https://www.linkedin.com/pulse/when-comes-aisynthetic-data-has-dirty-little-secret-radosta /
(3) Michael Yurushkin, ¿Cómo pueden los datos sintéticos resolver el problema del sesgo de la IA?, blog de brouton lab, https://broutonlab.com/blog/ai-bias-solved-with-synthetic-data-generation/
(4) Giuffrè, M., Shung, DL Aprovechar el poder de los datos sintéticos en la atención sanitaria: innovación, aplicaciones y privacidad. npj Dígito. Medicina. 6, 186 (2023). https://doi.org/10.1038/s41746-023-00927-3
(5) RGPD
(6) AEDP, Diez conceptos erróneos sobre la anonimización, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf
(7) Artículo 26 del RGPD
(8) AEDP, Diez conceptos erróneos relacionados con la anonimización, https://edps.europa.eu/system/files/2021-04/21-04-27_aepd-edps_anonymisation_en_5.pdf
(9) Robert Riemann, Synthetic Data, Supervisor Europeo de Protección de Datos.
(10) Alex Hern, Los datos ‘anonimizados’ nunca pueden ser completamente anónimos, según un estudio, The Guardian, 23 de julio de 2019, https://www.theguardian.com/technology/2019/jul/23/ anonymised-data-never – ser-lo suficientemente-anónimo-para-investigar-ver; Emily M. /10.1093/idpl/ipac008
(11) H. Deng, Análisis de datos sintéticos para inteligencia artificial y sistemas automatizados: introducción,
Ginebra, Suiza: UNIDIR, 2023, https://unidir.org/wp-content/uploads/2023/11/UNIDIR_Exploring_Synthetic_Data_for_Artificial_Intelligence_and_Autonomous_Systems_A_Primer.pdf.