Verbundprojekt: EE-HPC - Quelloffene Lösungsansätze für Monitoring und Systemeinstellungen für energieeffiziente Rechenzentren

Schlussbericht

Loading...
Thumbnail Image

Editor

Advisor

Volume

Issue

Journal

Series Titel

Book Title

Publisher

Hannover : Technische Informationsbibliothek

Supplementary Material

Other Versions

Link to publishers' Version

Abstract

Der Energieverbrauch von HPC-Rechenzentren stellt einen entscheidenden Faktor bei Beschaffung und Betrieb moderner Rechencluster dar. Die Stromkosten machen über die Standzeit eines HPC-Systems einen wesentlichen Anteil der Gesamtkosten aus, und auch hinsichtlich des ganzheitlichen Ressourcenverbrauchs ist - bedingt durch den Betrieb nahe am Leistungslimit - der Stromverbrauch der dominante Faktor. Während einige große Tier-0/1-Rechenzentren bereits heute Möglichkeiten nutzen, den Energieverbrauch von Applikationen zu begrenzen, beschränken sich diese Maßnahmen meist auf einfache Mittel wie die Frequenzbegrenzung oder die Abschaltung ganzer Knoten. Ziel des Projekts EE-HPC war daher die effizientere Energienutzung von HPC-Systemen durch eine Reduzierung der Stromaufnahme bei gleichzeitiger Durchsatzmaximierung. Erreicht werden sollte dies durch eine gezielte jobspezifische Steuerung und Optimierung der Hardwarekonfiguration sowie der Einstellungen der Laufzeitumgebungen (OpenMP und MPI). Im Unterschied zu herkömmlichen Lösungen sollte eine Brücke zwischen der Forschung zur Energiemodellierung, den Entwicklern und Nutzern von Anwendungen und den Betreibern von HPC-Systemen geschlagen werden. Grundlage der Lösung ist ein systemweites, jobspezifisches Performance- und Energiemonitoring-Framework, das auf der bestehenden ClusterCockpit-Umgebung aufbaut und im Rahmen des Projekts erweitert wurde. Die Erfassung von Hardwaremetriken sowie die Umsetzung der Hardwarekonfiguration werden über die LIKWID-Bibliothek realisiert. Als Plattform zur Optimierung und Umsetzung der Energieeinstellungen war ursprünglich das GEOPM-Framework vorgesehen; aufgrund detaillierter Evaluierungen und Rücksprache mit Anwenderzentren wurde jedoch entschieden, GEOPM nicht als Basis zu verwenden und stattdessen einen eigenen Software-Stack zu entwickeln. Zur Ermittlung der optimalen Parameter werden analytische Modellierungen mit empirischen Methoden kombiniert. Die Bestimmung erfolgt online während der Produktivläufe, alle relevanten Parameter werden in einer Job-Datenbank gespeichert und über eine webbasierte Benutzerschnittstelle visualisiert. Durch eine kontinuierliche direkte Optimierung werden die Systemeinstellungen laufend angepasst, um einen optimalen Kompromiss zwischen Stromverbrauch und Durchsatz zu erreichen.

Description

Keywords GND

Conference

Publication Type

Report

Version

publishedVersion

License

Creative Commons Attribution-NonDerivs 3.0 Germany