Verbundprojekt: Repräsentative, synthetische Gesundheitsdaten mit starken Privatsphärengarantien - PriSyn; Teilvorhaben: Vertrauenswürdige generative Modelle

Loading...
Thumbnail Image

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Link to publishers version

Abstract

Das PriSyn-Projekt untersucht Methoden zur Generierung datenschutzwahrender synthetischer biomedizinischer Daten. Der Fokus liegt auf der Analyse von Privatheits- und Anonymitätsrisiken generativer Modelle, die auf sensiblen Gesundheitsdaten trainiert werden, sowie auf Verfahren zur Reduzierung dieser Risiken bei gleichzeitig hoher Datennutzbarkeit. Dafür wurden bestehende Privacy-Angriffe (z. B. Membership- und Attribute-Inference) an den biomedizinischen Kontext angepasst und durch neue Bewertungsmethoden wie Datensatz-Rekonstruktionsangriffe erweitert. Diese wurden in die Softwareplattform Generator-Doctor integriert, die eine systematische Analyse von Datenschutzrisiken generativer Modelle ermöglicht.

Zudem wurden differential-private generative Modelle entwickelt und in einen gemeinsamen Designrahmen integriert. Durch Einbindung biologischen Domänenwissens, insbesondere genregulatorischer Netzwerke, sowie durch kausale generative Modelle konnte die Qualität und Plausibilität synthetischer Daten verbessert werden. Große Sprachmodelle unterstützten dabei die automatische Extraktion regulatorischer Beziehungen aus biomedizinischer Literatur.

Darüber hinaus wurden verteilte Lernmethoden für klinische Datenumgebungen untersucht und kollaboratives Training mittels Swarm Learning demonstriert. Insgesamt zeigt das Projekt, dass die Kombination aus synthetischer Datengenerierung, Differential Privacy und biologisch informierter Modellierung den Privacy-Utility-Trade-off verbessern und einen sicheren Datenaustausch zwischen Institutionen ermöglichen kann.


The PriSyn project investigates methods for generating privacy-preserving synthetic biomedical data. The focus lies on analyzing privacy and anonymity risks associated with generative models trained on sensitive health data, as well as on methods to mitigate these risks while maintaining high data usability. To this end, existing privacy attacks (e.g., membership and attribute inference) were adapted to the biomedical context and expanded with new evaluation methods such as dataset reconstruction attacks. These were integrated into the Generator-Doctor software platform, which enables a systematic analysis of privacy risks in generative models.

In addition, differential-privacy generative models were developed and integrated into a common design framework. By incorporating biological domain knowledge, particularly gene regulatory networks, as well as causal generative models, the quality and plausibility of synthetic data were improved. Large language models supported the automatic extraction of regulatory relationships from biomedical literature.

Furthermore, distributed learning methods for clinical data environments were investigated, and collaborative training using swarm learning was demonstrated. Overall, the project demonstrates that the combination of synthetic data generation, differential privacy, and biologically informed modeling can improve the privacy-utility trade-off and enable secure data exchange between institutions.

Description

Keywords

License

Creative Commons Attribution-NonDerivs 3.0 Germany