KI-basierte Anonymisierung in der Medizin (KI-AIM)
Abschlussbericht
Date
Editor
Advisor
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Supplementary Material
Other Versions
Link to publishers' Version
Abstract
Für die Entwicklung moderner KI-Verfahren in der Medizin sind große Mengen hochwertiger und möglichst realitätsnaher Daten erforderlich. Einzelne Einrichtungen verfügen jedoch oft nicht über ausreichend umfangreiche Datensätze, um darauf ein wirksames Training aufzubauen. Ein standortübergreifender Austausch von Daten kann daher ein wichtiger Ansatz sein, um eine breitere gemeinsame Datenbasis zu schaffen. Gleichzeitig zählen Patientendaten zu den besonders sensiblen Informationen, sodass ihre Nutzung und Weitergabe strengen Anforderungen des Datenschutzes unterliegt. Insbesondere die Datenschutz-Grundverordnung setzt hier enge rechtliche Rahmenbedingungen. Zugleich eröffnen gesetzliche Regelungen wie das Gesundheitsdatennutzungsgesetz Möglichkeiten, medizinische Daten in geschützter Form für Forschung und Entwicklung nutzbar zu machen. In der praktischen Umsetzung kommen dabei vor allem zwei Ansätze in Betracht. Bei der Anonymisierung werden identifizierende Merkmale in den vorhandenen Daten gezielt verändert oder unkenntlich gemacht, um Rückschlüsse auf einzelne Personen zu erschweren. Die Synthetisierung verfolgt einen anderen Weg: Hier werden mithilfe generativer, KI-gestützter Verfahren künstliche Datensätze erzeugt, die sich an den statistischen Eigenschaften realer Daten orientieren und diesen möglichst nahekommen. Beide Methoden bringen jeweils spezifische Vorteile mit sich, weisen aber auch Grenzen auf. Eine Verbindung beider Verfahren verspricht daher, sowohl den Schutz der Privatsphäre als auch die wissenschaftliche Verwendbarkeit der Daten zu stärken.
Vor diesem Hintergrund verfolgte das Projekt KI-basierte Anonymisierung in der Medizin (KI-AIM) das Ziel, genau dieses Zusammenspiel zu untersuchen und eine Plattform zu entwickeln, die Anonymisierung und synthetische Datengenerierung in einem System zusammenführt. Eine solche Lösung kann dazu beitragen, das datenschutzgerechte Teilen medizinischer Daten in der Forschung zu erleichtern und damit die Verfügbarkeit von Trainingsdaten zu verbessern, insbesondere für die Entwicklung KI-basierter Anwendungen. Im Rahmen von KI-AIM entstand hierfür die Plattform Cinnamon, mit der sich Anonymisierungs- und Synthetisierungsverfahren kombiniert einsetzen lassen. Durch eine möglichst niedrigschwellige Benutzeroberfläche richtet sich die Plattform auch an Forschende, die nicht über vertiefte Spezialkenntnisse im Bereich der Anonymisierung verfügen. Zur Unterstützung einer sicheren Nutzung und Weitergabe von Daten werden Anwenderinnen und Anwender von Cinnamon mithilfe standardisierter Bewertungsverfahren bei der Einordnung von Datenqualität und Restrisiken unterstützt. Diese Verfahren orientieren sich am aktuellen Forschungsstand und erleichtern fundierte Entscheidungen im Umgang mit sensiblen medizinischen Datensätzen. Zugleich wurde auf eine breite Einsetzbarkeit geachtet, indem etablierte medizinische Datenstandards berücksichtigt werden. Dazu gehört auch der international verbreitete Standard HL7 FHIR, dessen Unterstützung an bestehende Fortschritte im Bereich der Interoperabilität anknüpft, wie sie unter anderem in der Medizininformatik-Initiative erreicht wurden. Für standortübergreifende Anwendungen wurde außerdem darauf geachtet, dass sämtliche Konfigurationen der Plattform geteilt und wiederverwendet werden können. Technisch basiert Cinnamon auf einer modularen Architektur, wodurch die Plattform offen für Erweiterungen bleibt. Auf diese Weise können künftig weitere Anonymisierungs- und Synthetisierungsverfahren vergleichsweise einfach integriert werden.
Die AG Medizininformatik (MI) des Berlin Institute of Health (BIH) trug im Projekt wesentlich zur methodischen und technischen Entwicklung der Cinnamon-Plattform bei. Der Schwerpunkt der Arbeiten des BIH lag auf der Entwicklung der Anonymisierungskomponente, der Konfiguration von Anonymisierungsverfahren sowie der Konzeption und Umsetzung von Verfahren zur Bewertung von Qualität und Restrisiken der geschützten Daten. Hierzu wurden auf Basis von ARX, einem breit genutzten Open-Source-Werkzeug zur Anonymisierung biomedizinischer Daten, welches am BIH entwickelt wird, Verfahren zur perturbativen und nicht-perturbativen Anonymisierung in die Plattform eingebunden. Diese wurden dabei so aufbereitet und abstrahiert, dass sie über eine graphische Benutzeroberfläche auch für Anwender:innen ohne vertiefte Anonymisierungsexpertise nutzbar gemacht werden konnten. Das BIH beteiligt sich außerdem maßgeblich an der Auswahl und Entwicklung geeigneter Metriken für die Quantifizierung von Privacy-Risiken sowie der Nutzbarkeit der Daten. Gemeinsam mit den Projektpartnern wurde so eine modulare Anwendung geschaffen, die Komponenten zur Anonymisierung, Synthetisierung und Evaluation vereinigt. Im Zuge einer Evaluation bracht das BIH seine Expertise bei der Bewertung der Anonymisierbarkeit medizinischer Datensätze sowie bei der Auswertung der Evaluationsergebnisse ein.
