Dotąd funkcjonujący klaster na oksfordzkiej uczelni nie radził sobie z coraz większymi potrzebami obliczeniowymi. Dlatego uniwersytet z pomocą Lenovo i OCF wdrożył klaster Lenovo NeXtScale System M5 z ponad  5000 rdzeniami procesorów Intela. Obecnie, dzięki temu rozwiązaniu, zapewniono naukowcom z różnych dziedzin najnowocześniejsze narzędzie badawcze. Co istotne dla zleceniodawcy, nowe rozwiązanie pomaga w utrzymaniu doskonałej reputacji uniwersytetu wśród uczelni  wyższych na całym świecie.

Dr Andrew Richards, który odpowiada za dział Advanced Research Computing  na Uniwersytecie Oksfordzkim, wyjaśnia, przed jakim problemem stanęła renomowana uczelnia:
„W ostatnich latach stale rosła potrzeba zwiększenia zasobów wysoko wydajnego przetwarzania komputerowego (HPC – High Performance Computing). Wiedzieliśmy, że aby zapewnić odpowiednie wsparcie różnego rodzaju projektom naukowym, musimy zwiększyć pojemność i moc obliczeniową posiadanych klastrów”.

 

Stałe zapotrzebowanie na dużą wydajność

Dział Advanced Research Computing na Uniwersytecie Oksfordzkim zapewnia centralne zasoby komputerowe HPC wszystkim powiązanym z uczelnią naukowcom. Systemy HPC – wcześniej wykorzystywane głównie przez fizyków i reprezentantów nauk biologicznych i medycznych – służą obecnie także innym naukowcom. Używają ich do skomplikowanych analiz i modelowania danych w najróżniejszych dyscyplinach nauki, również humanistycznych i społecznych.

Dr Richards wspomina: „Potrzeba większych zasobów HPC narastała z roku na rok. Stawała się tak duża, że musieliśmy utrzymywać nasze stare klastry dłużej, niż tego chcieliśmy, by nie dopuścić do przerwy w dostarczaniu usług”.

Zasoby musiały być udostępniane nie tylko naukowcom z uniwersytetu, ale także setkom nowych użytkowników zewnętrznych. „Uniwersytet Oksfordzki jest członkiem konsorcjum Science Engineering South (SES)” – wyjaśnia dr Richards.  – „Gdy skończyło się finansowanie regionalnych placówek, musieliśmy zapewnić wystarczającą pojemność, by przyjąć użytkowników powracających do naszego klastra z zasobów SES. Mieliśmy świadomość, że dotychczasowe systemy sobie z tym nie poradzą”.

 

Co zdecydowało o wyborze oferty

Ponieważ wiadomo było, że posiadane środowisko wkrótce nie będzie w stanie odpowiednio obsłużyć naukowców, uniwersytet sporządził krótką listę trzech dostawców, przy pomocy których mógłby wdrożyć nowy wydajny system.  
Dr Andrew Richards wspomina: „Przy bardzo konkurencyjnej cenie rozwiązanie Lenovo oferowało wysoką wydajność, jakiej potrzebowaliśmy, wpasowując się w ograniczoną przestrzeń naszego centrum danych. Po sprawdzeniu kosztów zasilania, chłodzenia i utrzymania, odkryliśmy, że Lenovo jest 20 proc. bardziej ekonomiczne od następnej w kolejności oferty”.

Współpracując z OCF, integratorem specjalizującym się w systemach HPC, uniwersytet wdrożył klaster oparty na 340 dwuprocesorowych węzłach Lenovo NeXtScale SystemM5, obejmujący w sumie 5440 rdzeni procesorów Intel. Węzły obliczeniowe Lenovo NeXtScale są dołączone przy użyciu przełączników Lenovo RackSwitch G8332 40GbE do posiadanego przez uczelnię systemu i realizują swoje zadania na bazie oprogramowania Simple Linux Utility Resource Manager. Wybrane węzły w klastrze wyposażono także w układy GPU NVIDIA Tesla K40.

Dr Richards tak to komentuje: „Każdy może użyć GPU do akceleracji aplikacji naukowych i mamy już dużą i stale rosnącą społeczność wykorzystującą te układy, w tym naukowców należących do brytyjskiego programu Networked Quantum Information Technologies, któremu przewodzi nasza uczelnia. Planujemy dodanie węzłów K80 GPU do obecnie używanych K40 GPU, by jeszcze bardziej wesprzeć naukowców z różnych dziedzin”.

Aby zminimalizować ryzyko przestojów, Lenovo stworzyło architekturę opartą  na 12 szafach rackowych podzielnych na dwie 6-rackowe sekcje. Obie jednocześnie wdrożył OCF. „Doceniamy wysiłki Lenovo i OCF, mające na celu zminimalizowanie zakłóceń, jakie wdrożenie wprowadzało do naszych usług. Przerwa w ich świadczeniu trwała tylko dwa tygodnie” – mówi dr Richards.

 

Nieocenione narzędzie badawcze

Nowy klaster Lenovo, o nazwie kodowej ArcusPhaseB, będzie wspierał prace naukowe prowadzone na całym Uniwersytecie. Dr Richards tłumaczy: „Superkomputer obsłuży ok. 120 aktywnych użytkowników miesięcznie i – mając 5440 rdzeni – będzie zużywał niewiele więcej energii niż nasz stary 1200-rdzeniowy klaster. Efektywność energetyczna rozwiązania Lenovo przekłada się na to,  że już osiągamy założone oszczędności”.

„Cała nowa dostępna moc obliczeniowa ma ogromny wpływ na wydajność systemu. Czas oczekiwania na wyniki w symulacjach danych jest znacznie krótszy  – poprzednio zwykle wynosił dwa dni, obecnie to mniej niż 24 godziny. Naukowcy wykorzystują wzrost wydajności, zwiększając złożoność swoich aplikacji i eksperymentów” – kontynuuje dr Richards.

Dzięki wdrożeniu wysoko wydajnego rozwiązania Lenovo większa niż dotąd liczba badaczy korzysta z najnowocześniejszych komputerowych narzędzi badawczych. Chociaż zdecentralizowana struktura uczelni umożliwia wydziałom budowanie własnych klastrów, to wydajność i ekonomiczność systemu Arcus przyciągają coraz więcej użytkowników.

„Wykorzystanie naszego klastra jest duże, zwykle oscyluje wokół 80 proc. przez pełną dobę i cały rok” – twierdzi dr Richards. – „To oznacza dużą ekonomiczność, gwarantując, że inwestycja w zasoby komputerowe przekłada się na rzeczywistą i użyteczną pracę. Chcemy zakomunikować, że scentralizowany klaster jest wygodnym i ekonomicznym rozwiązaniem, które przynosi więcej korzyści niż rozproszone rozwiązania wydziałowe. Lenovo pomaga nam w osiągnięciu celu, utrzymując pierwotny model cenowy, gdy rozwijamy nasz klaster. Tym samym łatwiej jest nam przekonać nowe grupy, by lepiej wykorzystywały swoje budżety, inwestując w Arcusa, a nie w swoje niewielkie klastry”.

Dr Richards podsumowuje: „Superkomputer Lenovo pomaga Uniwersytetowi Oksfordzkiemu utrzymywać wspaniałą reputację naukową. Zamiast ograniczonej grupy naukowców obecnie badacze, z najróżniejszych dziedzin nauki, wykorzystują analizy komputerowe w swych próbach lepszego zrozumienia świata. Zamiast też zmagać się z analizowaniem wielkiej masy danych na komputerach stacjonarnych czy laptopach, mogą wykorzystać zasoby HPC do ogromnego przyspieszenia procesów i szybszego otrzymania dokładniejszych wyników”.

Komponenty rozwiązania

Sprzęt
•  Lenovo NeXtScale System nx360M5
•  Lenovo RackSwitchG8332
•  Procesory Intel Xeon

Oprogramowanie
• SLURM Workload Manager