RIDMI - Lesen und Interpretation von Dokumenten durch Maschinenintelligenz

Wüsthoff, Tammo

doi:https://doi.org/10.34657/28490

RIDMI - Lesen und Interpretation von Dokumenten durch Maschinenintelligenz

Sachbericht (Schlussbericht)

Files

1-BMFTR-16IS23004A-RIDMI-Sachbericht.pdf (276.59 KB)

2-BMFTR-16IS23004A-RIDMI-Kurzbericht.pdf (127.22 KB)

Date

2026-01-22

Authors

Wüsthoff, Tammo

Publisher

Hannover : Technische Informationsbibliothek

Abstract

Das Verbundprojekt RIDMI („Lesen und Interpretation von Dokumenten durch Maschinenintelligenz“) verfolgte das Ziel, die automatisierte Analyse komplexer Dokumente durch den Einsatz moderner KI-Methoden grundlegend zu verbessern. Im Fokus stand die Entwicklung multimodaler Verfahren, die sowohl visuelle als auch semantische Informationen verarbeiten können, um Dokumente strukturell zu verstehen, Inhalte zu extrahieren und barrierefreie Ausgabeformate zu erzeugen.

Ausgangspunkt war die Beobachtung, dass viele bestehende Systeme zur Dokumentenanalyse an den vielfältigen Layouts und Formaten realer Geschäftsdokumente scheitern. RIDMI adressierte diese Herausforderung durch den Aufbau robuster Modelle zu Layout-, Struktur- und Bildverständnis, insbesondere für deutschsprachige Dokumente. Dabei kamen moderne Transformer-Architekturen wie LayoutLMv3, DETR, Florence-2 und Gemma-2 zum Einsatz, ergänzt durch eigens entwickelte Autoencoder-Modelle (DVAE, GVAE) zur Generierung visueller Embeddings.

Ein zentrales Element des Projekts war die Erstellung und Aufbereitung eines umfangreichen, qualitativ hochwertigen Dokumentkorpus. Über einen eigens entwickelten Web-Crawler wurden mehr als 1,5 Millionen Dokumente aus dem öffentlichen Sektor gesammelt. Ergänzt durch interne Quellen und manuelle Recherchen entstand ein einzigartiger deutschsprachiger Datensatz, der die Grundlage für das Training und die Evaluation der Modelle bildete. Die Annotation erfolgte teils automatisiert, teils über die Plattform CIB crowdsource, wodurch auch Aspekte wie Lesereihenfolge und semantische Struktur erfasst wurden.

Im Projektverlauf wurden mehrere technologische Meilensteine erreicht: eine leistungsfähige Tabellenerkennung (TATR), eine Logo- und Bildinhaltsanalyse, sowie die Integration von Large Language Models (LLMs) zur semantischen Texterkennung. Diese Komponenten wurden in die CIB-Produkte doXiview und doXisafe integriert und ermöglichen dort bereits die prototypische Erstellung barrierefreier PDF-Dokumente.

Die Zusammenarbeit mit dem Projektpartner Fraunhofer IAIS war geprägt von enger Abstimmung, gemeinsamer Spezifikation von Datenformaten und der Integration von Modellen in produktnahe Anwendungen. Die entwickelten Technologien wurden kontinuierlich evaluiert und in realen Anwendungsszenarien getestet.

RIDMI konnte seine Ziele in weiten Teilen erreichen. Die entwickelten Komponenten sind einsatzbereit, erste Kundenlösungen wurden realisiert, und es bestehen konkrete Pläne zur wirtschaftlichen Verwertung. Die Ergebnisse bilden zudem eine solide Grundlage für zukünftige Forschung und Produktentwicklung im Bereich der intelligenten Dokumentverarbeitung. Besonders hervorzuheben ist das Potenzial zur weiteren Verbesserung der Barrierefreiheit, zur Automatisierung von Geschäftsprozessen und zur Erschließung neuer Anwendungsfelder im öffentlichen und privaten Sektor.

Publication Type

Report

Version

publishedVersion

URI

https://oa.tib.eu/renate/handle/123456789/29421
https://doi.org/10.34657/28490

Collections

Forschungsberichte Pflichtabgabe (BMFTR, BMWE…)

License

Creative Commons Attribution-NonDerivs 3.0 Germany

https://creativecommons.org/licenses/by-nd/3.0/de/

Full item page

RIDMI - Lesen und Interpretation von Dokumenten durch Maschinenintelligenz

Files

Date

Authors

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Description

Keywords

Keywords GND

Conference

Publication Type

Version

URI

Collections

License