Verbundprojekt: EE-HPC - Quelloffene Lösungsansätze für Monitoring und Systemeinstellungen für energieeffiziente Rechenzentren
Schlussbericht
Date
Editor
Advisor
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Supplementary Material
Other Versions
Link to publishers' Version
Abstract
Der Energieverbrauch von HPC-Rechenzentren stellt einen entscheidenden Faktor bei Beschaffung und Betrieb moderner Rechencluster dar. Die Stromkosten machen über die Standzeit eines HPC-Systems einen wesentlichen Anteil der Gesamtkosten aus, und auch hinsichtlich des ganzheitlichen Ressourcenverbrauchs ist - bedingt durch den Betrieb nahe am Leistungslimit - der Stromverbrauch der dominante Faktor. Während einige große Tier-0/1-Rechenzentren bereits heute Möglichkeiten nutzen, den Energieverbrauch von Applikationen zu begrenzen, beschränken sich diese Maßnahmen meist auf einfache Mittel wie die Frequenzbegrenzung oder die Abschaltung ganzer Knoten. Ziel des Projekts EE-HPC war daher die effizientere Energienutzung von HPC-Systemen durch eine Reduzierung der Stromaufnahme bei gleichzeitiger Durchsatzmaximierung. Erreicht werden sollte dies durch eine gezielte jobspezifische Steuerung und Optimierung der Hardwarekonfiguration sowie der Einstellungen der Laufzeitumgebungen (OpenMP und MPI). Im Unterschied zu herkömmlichen Lösungen sollte eine Brücke zwischen der Forschung zur Energiemodellierung, den Entwicklern und Nutzern von Anwendungen und den Betreibern von HPC-Systemen geschlagen werden. Grundlage der Lösung ist ein systemweites, jobspezifisches Performance- und Energiemonitoring-Framework, das auf der bestehenden ClusterCockpit-Umgebung aufbaut und im Rahmen des Projekts erweitert wurde. Die Erfassung von Hardwaremetriken sowie die Umsetzung der Hardwarekonfiguration werden über die LIKWID-Bibliothek realisiert. Als Plattform zur Optimierung und Umsetzung der Energieeinstellungen war ursprünglich das GEOPM-Framework vorgesehen; aufgrund detaillierter Evaluierungen und Rücksprache mit Anwenderzentren wurde jedoch entschieden, GEOPM nicht als Basis zu verwenden und stattdessen einen eigenen Software-Stack zu entwickeln. Zur Ermittlung der optimalen Parameter werden analytische Modellierungen mit empirischen Methoden kombiniert. Die Bestimmung erfolgt online während der Produktivläufe, alle relevanten Parameter werden in einer Job-Datenbank gespeichert und über eine webbasierte Benutzerschnittstelle visualisiert. Durch eine kontinuierliche direkte Optimierung werden die Systemeinstellungen laufend angepasst, um einen optimalen Kompromiss zwischen Stromverbrauch und Durchsatz zu erreichen.
