Automatische Anonymisierung von Gerichtsentscheidungen für E-Justice und Legal-Tech (AnGer)
Sachbericht zum Verwendungsnachweis
Date
Editor
Advisor
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Supplementary Material
Other Versions
Link to publishers' Version
Abstract
Das Forschungsprojekt AnGer beschäftigte sich mit der automatischen Anonymisierung von Gerichtsurteilen. Ziel war die Entwicklung und fundierte Evaluation von Verfahren, mit denen personenbezogene und andere sensible Informationen in Gerichtsurteilen zuverlässig erkannt und anonymisiert werden können. Für die VeröGentlichung von Gerichtsurteilen ist eine korrekte Anonymisierung rechtlich zwingend (vgl. DSGVO). Daher liegt der Fokus auf einem hohen Recall: nahezu alle zu anonymisierenden Textstellen, insbesondere Hochrisikostellen wie Personennamen und Adressen, müssen erkannt werden. Die Precision ist weniger kritisch; überflüssige Maskierungen sind akzeptabel, solange Lesbarkeit und inhaltlicher Zusammenhang erhalten bleiben.
Das Projekt knüpft an die Ergebnisse des Vorgängerprojekts LeAK (2020–2022) an. Eine zentrale Erkenntnis aus LeAK war, dass die Erkennung zu anonymisierender Textstellen eGektiv durch Finetuning von Large Language Models (LLMs) gelöst werden kann, hierfür jedoch ein umfangreicher und qualitativ hochwertiger Goldstandard sorgfältig annotierter Trainingsdaten zwingend erforderlich ist. In LeAK konnte für zwei Domänen (aufgefasst als Kombination von Rechtsgebiet und gerichtlicher Instanz) ca. 99% Recall für Hochrisikostellen bei ebenfalls hoher Precision erreicht werden, nämlich amtsgerichtliche Urteile im Miet- und Verkehrsrecht. LeAK zeigte aber auch, dass nahezu perfekte Ergebnisse eben nur von hochspezialisierten Modelle in eng abgegrenzten Domänen erreicht werden können. Vor diesem Hintergrund bestand die zentrale Forschungsaufgabe von AnGer in der Übertragbarkeit auf weitere Domänen. Dazu mussten entsprechende Goldstandards aufgebaut und manuell annotiert werden. Diese bilden die Grundlage für Training und Evaluation der entwickelten Verfahren zur Domänenanpassung.
