Metrics4NLG - Evaluationsmetriken für Textgenerierungssysteme aus dem Bereich der natürlichen Sprachverarbeitung

Eger, Steffen

doi:https://doi.org/10.34657/32168

Metrics4NLG - Evaluationsmetriken für Textgenerierungssysteme aus dem Bereich der natürlichen Sprachverarbeitung

Schlussbericht

Files

Metrics4NLG_TeilII-Schlussbericht.pdf (189.13 KB)

Metrics4NLG_TeilI-Kurzbericht.pdf (113.69 KB)

Date

2026-03-23

Authors

Eger, Steffen

Publisher

Hannover : Technische Informationsbibliothek

Abstract

Evaluationsmetriken für Textgenerierung bewerten die Qualität von Systemen, die automatisch Text erzeugen. Solche Systeme können z.B. Maschinelle Übersetzungssysteme, Systeme zur Zusammenfassung (Summarization'') längerer Texte oder auch Chatbots sein. Die Textgenerierungs-Systeme selbst sind von enormer Bedeutung für die Verarbeitung natürlicher Sprache und haben vielfältige Anwendungen in Industrie und Wissenschaft (man denke an Google Translate oder DeepL). Durch den Fortschritt in der Künstlichen Intelligenz (KI) und insbesondere in den Bereichen des Tiefen Lernens (deep learning'') haben diese Systeme in den letzten Jahren enorme Qualitätssprünge gemacht und die Erwartung ist, dass sie die Mensch-Computer-Interaktion in den nächsten Jahren revolutionieren werden. Andererseits hinken die Evaluationsmetriken dem Fortschritt der Systeme selbst hinterher, da die in der Community üblichen Metriken auf einfachsten Algorithmen beruhen, die vor über 20 Jahren entwickelt wurden. Dies birgt das große Risiko, dass neue Generationen von Systemen inadäquat bewertet und nach falschen Maßstäben ``Gewinner-Systeme'' ermittelt werden, was zu Fehlsteuerungen und Fehlinvestionen erheblichen Ausmaßes führen kann.
Die KI-Nachwuchsgruppe Metrics4NLG setzt sich zum Ziel, eine neue Generation von Evalationsmetriken für Textgenerierung einzuläuten. Diese sollen verschiedene Anforderungen erfüllen, die aus Perspektive von Wissenschaft und Industrie höchste Priorität haben. Eine erste Anforderung ist eine weit höhere Qualität der Metriken. Dies soll im Projekt erfüllt werden, indem die Metriken auf Text-Repräsentationen aufbauen, die dem neuesten Stand des Tiefen Lernens entsprechen. Darüber hinaus sind die Effizienz, Erklärbarkeit und Robustheit der Metriken von größter Bedeutung. Effizienz meint hierbei (i) Metriken aus wenigen Ressourcen induzieren zu können, was Grundlage für eine integrative Abdeckung der Metriken über verschiedene Sprachen der Welt ist, sowie (ii) schnelle Ausführbarkeit und niedrige Speicherkosten der Metriken. Erklärbarkeit bedeutet, dass die Prozesse der Metriken nachvollziehbar sind, was zu größerem Vertrauen bei Nutzern und zu verbesserten Entwicklungen führen soll, indem Limitationen der Metriken offengelegt und behoben werden können. Robustheit bedeutet, dass die Metriken auch unter `real-world' Bedingungen (z.B. Schreibfehler, sowohl natürlicher als auch adversarialer Art) robust Qualität vorhersagen können. Zu den Anforderungen gehört im interdisziplinären Kontext auch, dass die Metriken in zeit-sensitiven Szenarien, z.B. wenn sie die Qualität von Systemen bemessen, die aus historischen Sprachen in moderne übersetzen, und für geisteswissenschaftliche Problemstellungen (z.B. Bewertung von Systemen zur Erzeugung von Gedichten) adqäquat funktionieren sollen. Der Nutzen solcher Metriken betrifft alle Industriezweige, die sich mit Generierung natürlicher Sprache befassen. Dazu gehören nicht nur Übersetzungsanbieter wie DeepL, Nachrichtendienstleister wie die Deutsche Welle (die z.B. Interesse an Systemen für automatische Zusammenfassungen haben), sondern auch unzählige Webunternehmen, die z.B. mit KI-basierten Chatbots Kontaktanfragen abwickeln. Im Kontext des Projekts arbeiten wir mit zwei Unternehmen zusammen, Siemens Global Translate Services (als Teil von Siemens), die großes Interesse an neuen Metriken für ihre haus-internen Übersetzungssoftware haben, sowie Summetix, ein start-up, das sich auf die Zusammenfassung von Argumenten sowie das Erschließen von Argumenten, um bessere Entscheidungsfindung zu ermöglichen, spezialisiert hat.

Keywords

Evaluation, Metriken, Evaluationsmetriken, Maschinelle Übersetzung, Summarisierung

Publication Type

Report

Version

publishedVersion

URI

https://oa.tib.eu/renate/handle/123456789/33100
https://doi.org/10.34657/32168

Collections

Forschungsberichte Pflichtabgabe (BMFTR, BMWE…)

License

Creative Commons Attribution-NonDerivs 3.0 Germany

https://creativecommons.org/licenses/by-nd/3.0/de/

Full item page

Metrics4NLG - Evaluationsmetriken für Textgenerierungssysteme aus dem Bereich der natürlichen Sprachverarbeitung

Files

Date

Authors

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Description

Keywords

Keywords GND

Conference

Publication Type

Version

URI

Collections

License