RIDMI - Lesen und Interpretation von Dokumenten durch Maschinenintelligenz

Loading...
Thumbnail Image

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Link to publishers version

Abstract

Das Verbundprojekt RIDMI („Lesen und Interpretation von Dokumenten durch Maschinenintelligenz“) verfolgte das Ziel, die automatisierte Analyse komplexer Dokumente durch den Einsatz moderner KI-Methoden grundlegend zu verbessern. Im Fokus stand die Entwicklung multimodaler Verfahren, die sowohl visuelle als auch semantische Informationen verarbeiten können, um Dokumente strukturell zu verstehen, Inhalte zu extrahieren und barrierefreie Ausgabeformate zu erzeugen.

Ausgangspunkt war die Beobachtung, dass viele bestehende Systeme zur Dokumentenanalyse an den vielfältigen Layouts und Formaten realer Geschäftsdokumente scheitern. RIDMI adressierte diese Herausforderung durch den Aufbau robuster Modelle zu Layout-, Struktur- und Bildverständnis, insbesondere für deutschsprachige Dokumente. Dabei kamen moderne Transformer-Architekturen wie LayoutLMv3, DETR, Florence-2 und Gemma-2 zum Einsatz, ergänzt durch eigens entwickelte Autoencoder-Modelle (DVAE, GVAE) zur Generierung visueller Embeddings.

Ein zentrales Element des Projekts war die Erstellung und Aufbereitung eines umfangreichen, qualitativ hochwertigen Dokumentkorpus. Über einen eigens entwickelten Web-Crawler wurden mehr als 1,5 Millionen Dokumente aus dem öffentlichen Sektor gesammelt. Ergänzt durch interne Quellen und manuelle Recherchen entstand ein einzigartiger deutschsprachiger Datensatz, der die Grundlage für das Training und die Evaluation der Modelle bildete. Die Annotation erfolgte teils automatisiert, teils über die Plattform CIB crowdsource, wodurch auch Aspekte wie Lesereihenfolge und semantische Struktur erfasst wurden.

Im Projektverlauf wurden mehrere technologische Meilensteine erreicht: eine leistungsfähige Tabellenerkennung (TATR), eine Logo- und Bildinhaltsanalyse, sowie die Integration von Large Language Models (LLMs) zur semantischen Texterkennung. Diese Komponenten wurden in die CIB-Produkte doXiview und doXisafe integriert und ermöglichen dort bereits die prototypische Erstellung barrierefreier PDF-Dokumente.

Die Zusammenarbeit mit dem Projektpartner Fraunhofer IAIS war geprägt von enger Abstimmung, gemeinsamer Spezifikation von Datenformaten und der Integration von Modellen in produktnahe Anwendungen. Die entwickelten Technologien wurden kontinuierlich evaluiert und in realen Anwendungsszenarien getestet.

RIDMI konnte seine Ziele in weiten Teilen erreichen. Die entwickelten Komponenten sind einsatzbereit, erste Kundenlösungen wurden realisiert, und es bestehen konkrete Pläne zur wirtschaftlichen Verwertung. Die Ergebnisse bilden zudem eine solide Grundlage für zukünftige Forschung und Produktentwicklung im Bereich der intelligenten Dokumentverarbeitung. Besonders hervorzuheben ist das Potenzial zur weiteren Verbesserung der Barrierefreiheit, zur Automatisierung von Geschäftsprozessen und zur Erschließung neuer Anwendungsfelder im öffentlichen und privaten Sektor.

Description

Keywords

License

Creative Commons Attribution-NonDerivs 3.0 Germany