Spezifikationen

Hardware

Die Condor HPC-Anlage ist ausgestattet mit 41 Simulationsservern, die insgesamt ca. 2.000 64 Bit-CPU-Kernen der x86-Prozessorarchitektur und ca. 14 TB Hauptspeicher zur Ausführung massiver paralleler Berechnungen bietet. Die Rechenanlage ist modular aufgebaut, sodass sie im Prinzip beliebig skalierbar ist. Die Rechenknoten können im Bedarfsfall durch Löschen der Festplatten und automatische Neuinstallation dynamisch zwischen zwei getrennten Cluster-Umgebungen wechseln.

Das System verteilt zuvor eingegebene Jobs an Rechenknoten, die noch geeignete Ressourcen frei haben. Durch die Installation des Condor Queuing-Systems können die Simulationen hervorragend aufgeteilt werden, sodass die Auslastung der Geräte stets gewahrt bleibt.

In beiden Cluster-Umgebungen sind je zwei synchron gespiegelte Fileserver mit je 30 TB Nutzdatenspeicher als Cluster-weiter Speicherplatz eingebunden.

Neben dem abgesicherten und vom Netz getrennten internen Cluster zur Berechnung schützenswerter Daten wird auf einer zweiten, öffentlichen Umgebung des Condor HPC-Clusters universitätsinternen und auch -externen Nutzern aus dem Bereich der Survey-Statistik ein Zugang ermöglicht. In dieser zweiten Umgebung können Berechnungen und Simulationen auf Daten ohne besonderen Anforderungen an den Datenschutz auch von zu Hause oder unterwegs via SSH aufgesetzt und verfolgt werden.

Software

Bei dem für den HPC-Cluster verwendeten Betriebssystem handelt es sich um Ubuntu in einer aktuellen LTS-Version, weshalb sich alle Software-Pakete des Ubuntu-Paket-Repository installieren und verwenden lassen. Zudem liegt ein besonderer Fokus auf R, das derzeit einen der größten Funktionsumfänge im Bereich der Statistik bietet. Dazu werden zusätzlich zum Zeitpunkt der Installation und wiederkehrend nach Bedarf alle verfügbaren R-Pakete aus dem CRAN-Repository installiert, die sich kompilieren lassen. Es können darüber hinaus auch eigene R-Pakete installiert oder eigene Binärdateien dem Cluster zur Ausführung übergeben werden.

Queueing System

Das Queueing-System "Condor" bietet die Möglichkeit, Arbeitsaufgaben unabhängig voneinander nach Nutzer getrennt auf einem passenden Cluster-Knoten auszuführen. Hierbei wird je CPU der Berechnungsserver (Node/Knoten) ein Slot bereitgestellt, Aufgaben werden nach Eingangsreihenfolge auf alle verfügbaren Slots aufgeteilt.

Condor bietet die Möglichkeit, Benutzern Prioritäten zuzuweisen, sodass Jobs von priorisierten Benutzern zuerst abgearbeitet werden. Dies kann vom Nutzer per E-Mail an rclustuni-trierde beantragt werden. Sollte ein Knoten während der Berechnungen ausfallen, werden die Aufgaben, die darauf liefen, auf einem anderen Knoten erneut ausgeführt.


Eine Anleitung zur Nutzung von Condor wird unter folgendem Link bereitgestellt: Condor-Dokumentation