Suche

zur Hauptseite

Navigation und Service


Neue Ergebnisse für Echtzeitsimulationen (AP 3.3)

GPU Hackathon 2016 in Dresden

Aufbauend auf einem vereinfachten Rauchausbreitungsmodell und spezieller Programmiertechniken und Computerarchitekturen, werden im Rahmen des ORPHEUS Projektes (AP 3.3) Methoden erforscht, welche die Berechnung der Rauchausbreitung in Echtzeit ermöglichen. Bestandteil dieser Techniken und Architekturen ist eine parallele Berechnung auf Graphikkarten (GPUs). Dabei kann die Portierung auf GPUs mit Hilfe von sogenannten Compiler-Direktiven wie OpenACC erfolgen. Die Anwendung von OpenACC war auch Ziel des erstem Hackathons in diesem Jahr.

Der Hackathon in Dresden, koordiniert durch die Oak Ridge National Library (ORNL), wurde als 5 Tages-Hands-On Workshop von der TU Dresden in Zusammenarbeit mit dem Jülich Supercomputing Centre (JSC) organisiert (mehr im TU Dresden Blog). Angereist waren vom 29. Februar bis zum 04. März sechs Teams mit dem Ziel ihre Anwendungen mit Hilfe von OpenACC zu beschleunigen. Dabei unterstützten je zwei Tutoren pro Team, die als Experten von PGI, NVIDIA, MPI, der TU Dresden, HZDR, dem JSC, und der RWTH hinzugezogen wurden, und fieberten auf dem Weg zu Beschleunigung motivierend mit.

Sechs Teams, ihre Tutoren und die Veranstalter des Hackathons 2016 in DresdenTeams des Hackathons 2016 in Dresden

Auch das Team „JuROr“ – bestehend aus Lukas Arnold, Jette Schumann und Anne Severt vom Forschungszentrum Jülich – hatte es sich zur Aufgabe gemacht die bestehende serielle Implementierung auf eine Graphikkarte zu portieren und somit auf Echtzeit/ Prognosezeit zu beschleunigen. JuROr steht dabei für „Jülich’s Real-time simulation within ORPHEUS“ und dient zur numerischen Berechnung der Rauchentwicklung in komplexen Geometrien.

Team "JuROr" bestehend aus Anne Severt, Lukas Arnold und Jette Schuhmann mit TurorenTeam "JuROr" (von links: Jette Schumann, Jiri Kraus, Anne Severt, Sandra Wienke, Lukas Arnold)

Mit Hilfe des Expertenwissens von Jiri Kraus (NVIDIA) und Sandra Wienke (RWTH) gelang es dem Team die Anwendung 42-fach zu beschleunigen. Diese Beschleunigung wurde an einem einfachen Testbeispiel in 2D von der Größe 4096x4096 Zellen auf einer NVIDIA Tesla K80 (@875MHz) Graphikkarte gemessen und mit der seriellen Ausführung auf dem Hochleistungsrechner „Taurus“ der TU Dresden (Intel Xeon E5-2680 @2,5 GHz) vergleichen.

42-fache Beschleunigung auf der GPU gegenüber der seriellen Version auf der CPU

Berechnungszeit vs. Problemgröße zeigt kritische Hürden der ProblemgrößeBeschleunigung auf der GPU


Servicemenü