Verbundprojekt: Repräsentative, synthetische Gesundheitsdaten mit starken Privatsphärengarantien - PriSyn; Teilvorhaben: Vertrauenswürdige generative Modelle

Fritz, Mario; Zhang, Yang

doi:https://doi.org/10.34657/31638

Verbundprojekt: Repräsentative, synthetische Gesundheitsdaten mit starken Privatsphärengarantien - PriSyn; Teilvorhaben: Vertrauenswürdige generative Modelle

PriSyn Abschlussbericht über die Ergebnisse des Kooperationspartners CISPA

Files

16KISA133_Schlussbericht.pdf (4.42 MB)

16KISA133_Kurzbericht.pdf (119.62 KB)

Date

2026-03-13

Authors

Fritz, Mario

Zhang, Yang

Publisher

Hannover : Technische Informationsbibliothek

Abstract

Das PriSyn-Projekt untersucht Methoden zur Generierung datenschutzwahrender synthetischer biomedizinischer Daten. Der Fokus liegt auf der Analyse von Privatheits- und Anonymitätsrisiken generativer Modelle, die auf sensiblen Gesundheitsdaten trainiert werden, sowie auf Verfahren zur Reduzierung dieser Risiken bei gleichzeitig hoher Datennutzbarkeit. Dafür wurden bestehende Privacy-Angriffe (z. B. Membership- und Attribute-Inference) an den biomedizinischen Kontext angepasst und durch neue Bewertungsmethoden wie Datensatz-Rekonstruktionsangriffe erweitert. Diese wurden in die Softwareplattform Generator-Doctor integriert, die eine systematische Analyse von Datenschutzrisiken generativer Modelle ermöglicht.

Zudem wurden differential-private generative Modelle entwickelt und in einen gemeinsamen Designrahmen integriert. Durch Einbindung biologischen Domänenwissens, insbesondere genregulatorischer Netzwerke, sowie durch kausale generative Modelle konnte die Qualität und Plausibilität synthetischer Daten verbessert werden. Große Sprachmodelle unterstützten dabei die automatische Extraktion regulatorischer Beziehungen aus biomedizinischer Literatur.

Darüber hinaus wurden verteilte Lernmethoden für klinische Datenumgebungen untersucht und kollaboratives Training mittels Swarm Learning demonstriert. Insgesamt zeigt das Projekt, dass die Kombination aus synthetischer Datengenerierung, Differential Privacy und biologisch informierter Modellierung den Privacy-Utility-Trade-off verbessern und einen sicheren Datenaustausch zwischen Institutionen ermöglichen kann.

The PriSyn project investigates methods for generating privacy-preserving synthetic biomedical data. The focus lies on analyzing privacy and anonymity risks associated with generative models trained on sensitive health data, as well as on methods to mitigate these risks while maintaining high data usability. To this end, existing privacy attacks (e.g., membership and attribute inference) were adapted to the biomedical context and expanded with new evaluation methods such as dataset reconstruction attacks. These were integrated into the Generator-Doctor software platform, which enables a systematic analysis of privacy risks in generative models.

In addition, differential-privacy generative models were developed and integrated into a common design framework. By incorporating biological domain knowledge, particularly gene regulatory networks, as well as causal generative models, the quality and plausibility of synthetic data were improved. Large language models supported the automatic extraction of regulatory relationships from biomedical literature.

Furthermore, distributed learning methods for clinical data environments were investigated, and collaborative training using swarm learning was demonstrated. Overall, the project demonstrates that the combination of synthetic data generation, differential privacy, and biologically informed modeling can improve the privacy-utility trade-off and enable secure data exchange between institutions.

Keywords

Synthetische Gesundheitsdaten, Datenschutz in der KI, Generative Modelle, Differential privacy

Publication Type

Report

Version

publishedVersion

URI

https://oa.tib.eu/renate/handle/123456789/32569
https://doi.org/10.34657/31638

Collections

Forschungsberichte Pflichtabgabe (BMFTR, BMWE…)

License

Creative Commons Attribution-NonDerivs 3.0 Germany

https://creativecommons.org/licenses/by-nd/3.0/de/

Full item page

Verbundprojekt: Repräsentative, synthetische Gesundheitsdaten mit starken Privatsphärengarantien - PriSyn; Teilvorhaben: Vertrauenswürdige generative Modelle

Files

Date

Authors

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Description

Keywords

Keywords GND

Conference

Publication Type

Version

URI

Collections

License