05P21RFCA2: Verbundprojekt 05P2021 (ErUM-FSP T01) - Run 3 von ALICE am LHC: Fertigstellung und Inbetriebnahme der EPN-Farm
Date
Authors
Volume
Issue
Journal
Series Titel
Book Title
Publisher
Link to publishers version
Abstract
Die Arbeiten der Antragssteller wurden im Kontext der im ErUM-FSP T01 organisierten deutschen ALICE Universitätsgruppen in Frankfurt, Münster, Heidelberg, München, Bonn, Bielefeld und Tübingen sowie der GSI durchgeführt. Sie stellen einen erheblichen Beitrag zum ALICE Experiment dar. Hier sind insbesondere die TPC, der TRD und die EPN-Rechenfarm zu nennen. Die Projektleitung dieser drei Teile von ALICE liegt bei den deutschen Gruppen. Darüber hinaus gab es eine intensive Zusammenarbeit mit der FLP und der PDP Gruppe am CERN im Kontext des Rechnerbetriebes und besonders im Bereich der Entwicklung der schnellen und effizienten Ereignisrekonstruktionssoftware auf GPUs. Die EPN-Rechenfarm ist bezüglich des sehr konsequenten Einsatzes von GPURechenbeschleunigern am CERN führend. Im Kontext der Validierung der verschiedenen Softwarekomponenten der ALICE Subdetektoren wurde mit den entsprechenden Verantwortlichen der Detektorgruppen, insbesondere der TPC, zusammengearbeitet und Hilfestellung bei der Softwareentwicklung geleistet. Es besteht eine Validierungsinfrastruktur die alle neue Software zu durchlaufen hat um sicherzustellen, dass die Software möglichst fehlerfrei ist. Das ALICE Experiment am Large Hadron Collider des CERN wurde während des Run 3 betrieben und weiterentwickelt. Die ALICE Event Processing Farm (EPN) ist eine online Farm, die die Daten des Experiments in Echtzeit analysiert und komprimiert. Hierbei werden die Daten des Detektors mit einer Rate von knapp einem Terabyte pro Sekunde verarbeitet. Eine maximale Verarbeitungsrate von 1,3 Terabyte pro Sekunde konnten demonstriert werden. Hierbei wird eine volle Ereignisrekonstruktion durchgeführt. Ein wesentliches Element dieser on-line high-throughput HPC Farm ist der konsequente Einsatz von Graphikkarten als Hardware Beschleuniger um die Kosten zu reduzieren. Mittlerweile sind fast 100% der Software des synchronen Rechnens (online) auf Graphikkarten lauffähig. Insgesamt kann derselbe Quellcode sowohl auf verschiedenen GPUs aber auch auf CPUs laufen. Es hat sich gezeigt, dass die EPN Farm das Siebenfache kosten würde wenn auf GPUs verzichtet worden wäre. Die EPN Farm implementiert 2800 AMD MI50/MI100 Server GPUs, 24.640 physikalische AMD CPU Kerne, 200 TB Hauptspeicher und ein 100 Gb/s InfiniBand Netzwerk. Die Farm besteht aus 350 individuellen Servern. Die EPN Farm wird auch für das asynchrone (offline) Rechnen verwendet. Wesentliche Entwicklungen waren der TPC Readout, die Monitoring Umgebung, die 4D Spurrekonstruktion, die Qualitätskontrollinfrastruktur für die Datenaufnahme, die Entwicklung tragfähiger und effizienter Datenschemata. Ein zentraler Baustein der EPN Farm ist die Daten- und Lastverteilung, die die gesamten Datenströme in der EPN Farm steuert. Sie wurde während der Förderperiode zusammen mit aller notwendigen Software fertiggestellt und ist seitdem im Einsatz.
Datei-Upload durch TIB
