Verbundprojekt: Skalierbare und performante Massenspeicherzugriffe für Exascale-Supercomputer - MCSE
Schlussbericht
Date
Editor
Advisor
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Supplementary Material
Other Versions
Link to publishers' Version
Abstract
Exascale-Systeme waren bei Antragsstellung im Jahr 2021 für die nahe Zukunft erwartete HPC-Systeme. Das erste bekannte Exascale-System ist dabei das im Juni 2022 bei der Verkündung der TOP500 auf der ISC-Konferenz der Frontiers-Supercomputer in den USA. Selbst im Jahr 2026 existiert nur eine überschaubare Anzahl von Exacscale-Systemen, wobei im Jahr 2025 Europa mit dem Jupiter System am Jülich Supercompute Center sein erstes Exascale-System erfolgreich installiert hat. Trotz der beachtlichen Rechenleistung dieser Rechencluster hat sich die verfügbare Speicherbandbreite nicht in gleichem Maße weiterentwickelt, wodurch die Leistung der Systeme in wachsendem Ausmaß von der Geschwindigkeit der Datentransfers abhängen. Im Rahmen des MCSE-Projekts werden deshalb Ansätze für skalierbare und performante Massenspeicherzugriffe für Exascale-Supercomputer untersucht und Verbesserungen vorgeschlagen. Dabei müssen nicht nur auf die klassischen HPC-Anwendungen mit ihren typischen schreibintensiven Zugriffsmustern, sondern auch die neueren Anwendungen aus dem Bereich der künstlichen Intelligenz mit dem Lesezugriff auf eine sehr große Anzahl von kleinen Dateien eingegangen werden. Ein grundlegendes Problem bestehender Systeme ist dabei die semantische Lücke zwischen einer Vielzahl von vorhandenen High-Level-Bibliotheken in den oberen Schichten des I/O-Stacks und tiefen Schichten bis hin zur zugrundeliegenden Hardware. Dabei können die Absichten der Anwendung bei der Optimierung nicht berücksichtigt werden, da die reichhaltigen Semantiken in den High-Level-Bibliothken nicht an die unteren Schichten durchgereicht werden können. Es ist Aufgabe des vorliegenden Projekts diese Lücke zu schließen und dadurch Speichersystem optimal für die Anforderungen in verschiedenen Phasen von Simulationsprojekten zu nutzen. Darüber hinaus bestehen Lücken in vorhandenen Simulationscodes, wie z. B. dem am DLR entwickelten CODA, die der effizienten Skalierung von Speicherzugriffen entgegen stehen. Simulationscodes sollten durch die explizite Deklaration von Anforderungen in Hinblick auf Zugriffssemantiken, die Anpassung der Speichersystem auf Basis echter Anforderungen und nicht nur wie bisher üblich auf Basis von WorstCase-Annahmen ermöglichen. Dadurch sollte sich die Simulationsgeschwindigkeit dieser Codes erheblich beschleunigen lassen.
