Automatische Anonymisierung von Gerichtsentscheidungen für E-Justice und Legal-Tech (AnGer)

Sachbericht zum Verwendungsnachweis

Loading...
Thumbnail Image

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Das Forschungsprojekt AnGer beschäftigte sich mit der automatischen Anonymisierung von Gerichtsurteilen. Ziel war die Entwicklung und fundierte Evaluation von Verfahren, mit denen personenbezogene und andere sensible Informationen in Gerichtsurteilen zuverlässig erkannt und anonymisiert werden können. Für die VeröGentlichung von Gerichtsurteilen ist eine korrekte Anonymisierung rechtlich zwingend (vgl. DSGVO). Daher liegt der Fokus auf einem hohen Recall: nahezu alle zu anonymisierenden Textstellen, insbesondere Hochrisikostellen wie Personennamen und Adressen, müssen erkannt werden. Die Precision ist weniger kritisch; überflüssige Maskierungen sind akzeptabel, solange Lesbarkeit und inhaltlicher Zusammenhang erhalten bleiben.

Das Projekt knüpft an die Ergebnisse des Vorgängerprojekts LeAK (2020–2022) an. Eine zentrale Erkenntnis aus LeAK war, dass die Erkennung zu anonymisierender Textstellen eGektiv durch Finetuning von Large Language Models (LLMs) gelöst werden kann, hierfür jedoch ein umfangreicher und qualitativ hochwertiger Goldstandard sorgfältig annotierter Trainingsdaten zwingend erforderlich ist. In LeAK konnte für zwei Domänen (aufgefasst als Kombination von Rechtsgebiet und gerichtlicher Instanz) ca. 99% Recall für Hochrisikostellen bei ebenfalls hoher Precision erreicht werden, nämlich amtsgerichtliche Urteile im Miet- und Verkehrsrecht. LeAK zeigte aber auch, dass nahezu perfekte Ergebnisse eben nur von hochspezialisierten Modelle in eng abgegrenzten Domänen erreicht werden können. Vor diesem Hintergrund bestand die zentrale Forschungsaufgabe von AnGer in der Übertragbarkeit auf weitere Domänen. Dazu mussten entsprechende Goldstandards aufgebaut und manuell annotiert werden. Diese bilden die Grundlage für Training und Evaluation der entwickelten Verfahren zur Domänenanpassung.

Description

Keywords GND

Conference

Publication Type

Report

Version

publishedVersion

License

Creative Commons Attribution-NonDerivs 3.0 Germany