Metrics4NLG - Evaluationsmetriken für Textgenerierungssysteme aus dem Bereich der natürlichen Sprachverarbeitung
Date
Authors
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Link to publishers version
Abstract
Evaluationsmetriken für Textgenerierung bewerten die Qualität von Systemen, die automatisch Text erzeugen. Solche Systeme können z.B. Maschinelle Übersetzungssysteme, Systeme zur Zusammenfassung (Summarization'') längerer Texte oder auch Chatbots sein. Die Textgenerierungs-Systeme selbst sind von enormer Bedeutung für die Verarbeitung natürlicher Sprache und haben vielfältige Anwendungen in Industrie und Wissenschaft (man denke an Google Translate oder DeepL). Durch den Fortschritt in der Künstlichen Intelligenz (KI) und insbesondere in den Bereichen des Tiefen Lernens (deep learning'') haben diese Systeme in den letzten Jahren enorme Qualitätssprünge gemacht und die Erwartung ist, dass sie die Mensch-Computer-Interaktion in den nächsten Jahren revolutionieren werden. Andererseits hinken die Evaluationsmetriken dem Fortschritt der Systeme selbst hinterher, da die in der Community üblichen Metriken auf einfachsten Algorithmen beruhen, die vor über 20 Jahren entwickelt wurden. Dies birgt das große Risiko, dass neue Generationen von Systemen inadäquat bewertet und nach falschen Maßstäben ``Gewinner-Systeme'' ermittelt werden, was zu Fehlsteuerungen und Fehlinvestionen erheblichen Ausmaßes führen kann.
Die KI-Nachwuchsgruppe Metrics4NLG setzt sich zum Ziel, eine neue Generation von Evalationsmetriken für Textgenerierung einzuläuten. Diese sollen verschiedene Anforderungen erfüllen, die aus Perspektive von Wissenschaft und Industrie höchste Priorität haben. Eine erste Anforderung ist eine weit höhere Qualität der Metriken. Dies soll im Projekt erfüllt werden, indem die Metriken auf Text-Repräsentationen aufbauen, die dem neuesten Stand des Tiefen Lernens entsprechen. Darüber hinaus sind die Effizienz, Erklärbarkeit und Robustheit der Metriken von größter Bedeutung. Effizienz meint hierbei (i) Metriken aus wenigen Ressourcen induzieren zu können, was Grundlage für eine integrative Abdeckung der Metriken über verschiedene Sprachen der Welt ist, sowie (ii) schnelle Ausführbarkeit und niedrige Speicherkosten der Metriken. Erklärbarkeit bedeutet, dass die Prozesse der Metriken nachvollziehbar sind, was zu größerem Vertrauen bei Nutzern und zu verbesserten Entwicklungen führen soll, indem Limitationen der Metriken offengelegt und behoben werden können. Robustheit bedeutet, dass die Metriken auch unter `real-world' Bedingungen (z.B. Schreibfehler, sowohl natürlicher als auch adversarialer Art) robust Qualität vorhersagen können. Zu den Anforderungen gehört im interdisziplinären Kontext auch, dass die Metriken in zeit-sensitiven Szenarien, z.B. wenn sie die Qualität von Systemen bemessen, die aus historischen Sprachen in moderne übersetzen, und für geisteswissenschaftliche Problemstellungen (z.B. Bewertung von Systemen zur Erzeugung von Gedichten) adqäquat funktionieren sollen.
Der Nutzen solcher Metriken betrifft alle Industriezweige, die sich mit Generierung natürlicher Sprache befassen. Dazu gehören nicht nur Übersetzungsanbieter wie DeepL, Nachrichtendienstleister wie die Deutsche Welle (die z.B. Interesse an Systemen für automatische Zusammenfassungen haben), sondern auch unzählige Webunternehmen, die z.B. mit KI-basierten Chatbots Kontaktanfragen abwickeln. Im Kontext des Projekts arbeiten wir mit zwei Unternehmen zusammen, Siemens Global Translate Services (als Teil von Siemens), die großes Interesse an neuen Metriken für ihre haus-internen Übersetzungssoftware haben, sowie Summetix, ein start-up, das sich auf die Zusammenfassung von Argumenten sowie das Erschließen von Argumenten, um bessere Entscheidungsfindung zu ermöglichen, spezialisiert hat.
