Automatische Anonymisierung von Gerichtsentscheidungen für E-Justice und Legal-Tech (AnGer)

Das Forschungsprojekt AnGer beschäftigte sich mit der automatischen Anonymisierung von Gerichtsurteilen. Ziel war die Entwicklung und fundierte Evaluation von Verfahren, mit denen personenbezogene und andere sensible Informationen in Gerichtsurteilen zuverlässig erkannt und anonymisiert werden können. Für die VeröGentlichung von Gerichtsurteilen ist eine korrekte Anonymisierung rechtlich zwingend (vgl. DSGVO). Daher liegt der Fokus auf einem hohen Recall: nahezu alle zu anonymisierenden Textstellen, insbesondere Hochrisikostellen wie Personennamen und Adressen, müssen erkannt werden. Die Precision ist weniger kritisch; überflüssige Maskierungen sind akzeptabel, solange Lesbarkeit und inhaltlicher Zusammenhang erhalten bleiben.

Das Projekt knüpft an die Ergebnisse des Vorgängerprojekts LeAK (2020–2022) an. Eine zentrale Erkenntnis aus LeAK war, dass die Erkennung zu anonymisierender Textstellen eGektiv durch Finetuning von Large Language Models (LLMs) gelöst werden kann, hierfür jedoch ein umfangreicher und qualitativ hochwertiger Goldstandard sorgfältig annotierter Trainingsdaten zwingend erforderlich ist. In LeAK konnte für zwei Domänen (aufgefasst als Kombination von Rechtsgebiet und gerichtlicher Instanz) ca. 99% Recall für Hochrisikostellen bei ebenfalls hoher Precision erreicht werden, nämlich amtsgerichtliche Urteile im Miet- und Verkehrsrecht. LeAK zeigte aber auch, dass nahezu perfekte Ergebnisse eben nur von hochspezialisierten Modelle in eng abgegrenzten Domänen erreicht werden können. Vor diesem Hintergrund bestand die zentrale Forschungsaufgabe von AnGer in der Übertragbarkeit auf weitere Domänen. Dazu mussten entsprechende Goldstandards aufgebaut und manuell annotiert werden. Diese bilden die Grundlage für Training und Evaluation der entwickelten Verfahren zur Domänenanpassung.

Keywords

Anonymisierung, Computerlinguistik, Gerichtsentscheidungen, LLMs

Publication Type

Report

Version

publishedVersion

URI

https://oa.tib.eu/renate/handle/123456789/32893
https://doi.org/10.34657/31962

Collections

Forschungsberichte Pflichtabgabe (BMFTR, BMWE…)

License

Creative Commons Attribution-NonDerivs 3.0 Germany

https://creativecommons.org/licenses/by-nd/3.0/de/

Full item page

Automatische Anonymisierung von Gerichtsentscheidungen für E-Justice und Legal-Tech (AnGer)

Files

Date

Authors

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Description

Keywords

Keywords GND

Conference

Publication Type

Version

URI

Collections

License