Verbund: 05M2020 - MaGriDo: Mathematik für maschinelle Lernmethothoden für Graph-basierte Daten mit integriertem Domänenwissen; Teilprojekt 1: Integration von Domänenwissen, Erklärbarkeit und Transferlernen

Loading...
Thumbnail Image

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Link to publishers version

Abstract

Methoden des Deep Learning sind in den letzten Jahren erfolgreich für verschiedene Problemstellungen angewendet worden (Bilderkennung etc.). Hier wurden bisher meist sogenannte „end-to-end“ Lernansätze verwendet. Zu deren Umsetzung sind in der Regel sehr große Mengen von strukturierten Daten notwendig sind, welches dazu führt, dass diese in vielen möglichen Anwendungsfällen aus den Naturwissenschaften, Medizin und Industrie nur bedingt einsetzbar sind. Ziel des Verbundvorhabens MaGriDo war es daher, neue Ansätze zu entwickeln, zu analysieren und auf Problemstellungen anzuwenden, die es erlauben existierendes Wissen in die Architektur der Netzwerke einzubauen und somit ermöglichen von den komplementären jeweiligen Stärken von „end to-end“ Lernansätze und „a priori Modellen/Regeln“ zu profitieren. Solch ein Vorgehen verspricht substantiell effizientere Lösungen für viele der genannten Anwendungsfelder zu ermöglichen. Da üblicherweise komplexe Systeme sehr gut als Zusammensetzungen von Entitäten und deren Wechselwirkungen repräsentiert werden können, lag der Schwerpunkt der Forschung und Entwicklung in MaGriDo auf sogenannten Graphnetzwerken. Diese enthalten zum Beispiel konventionelle Fully-Connected-NN, Convolution-NN und Recurrent-NN als Spezialfall, können insbesondere auf relationalen Strukturen angewendet werden und ermöglichen eine hierarchische Prozessierung der Eingabedaten. Die Arbeiten im Teilprojekt 1 haben sich auf die geeignete Auswahl kleiner Trainingsmengen aus großen Pools unmarkierter Datenpunkte konzentriert. Dies ist von wesentlicher Bedeutung, um die Modellleistung zu maximieren und gleichzeitig die Effizienz zu erhalten. Insbesondere wird Farthest Point Sampling (FPS) untersucht, ein Ansatz zur Datenauswahl, der darauf abzielt, die sogenannte Fülldistanz der ausgewählten Menge zu minimieren. Auf theoretischer Seite wird eine obere Schranke für den maximal erwarteten Vorhersagefehler gezeigt, welche vor allem linear von der Fülldistanz der Trainingsmenge abhängt. Zudem wird empirisch beobachtet, dass die Auswahl eines Trainingssets mit FPS. d.h. mit dem Ziel die Fülldistanz zu minimieren, den maximalen Vorhersagefehler verschiedener Regressionsmodelle signifikant reduziert und alternative Sampling-Ansätze deutlich übertrifft. Um die durchschnittliche Qualität der Vorhersagen von kontinuierlichen Lipschitz Regressionsmodellen zu verbessern, wurde mit ”Density Aware Farthest Point Sampling”(DA-FPS) ein neues Datenauswahlverfahren entwickelt. Es zielt darauf, eine neu eingeführte gewichtete Fülldistanz zu minimieren, welche sowohl Punktabstände als auch Verteilungsüberlegungen berücksichtigt. Wir haben eine obere Schranke für den erwarteten durchschnittlichen Vorhersagefehler abgeleitet, die linear von der gewichteten Fülldistanz abhängt. Empirische Untersuchungen bestätigt die theoretischen Analysen.

Datei-Upload durch TIB

Description

Keywords

License

Creative Commons Attribution-NonDerivs 3.0 Germany