Superkomputer Huawei wspiera analitykę Big Data na Uniwersytecie Warszawskim

Wdrożony 360-węzłowy klaster pomoże uniwersyteckim specjalistom analizować wielkie zbiory danych, umożliwiając szybkie wydobywanie informacji i łatwe ich przetwarzanie.

Interdyscyplinarne Centrum Modelowania Matematycznego i Komputerowego (ICM) to jednostka Uniwersytetu Warszawskiego, która jest wiodącym ośrodkiem badań w dziedzinie nauk obliczeniowych w Europie Środkowej i Wschodniej. Zajmuje się analizą i modelowaniem danych z wykorzystaniem nowoczesnych technik informatycznych. Ponadto zapewnia wsparcie programistyczne w projektach naukowych i badawczych, które wymagają dużych mocy obliczeniowych. Od swojego powstania w 1993 r. funkcjonuje na zasadach centrum superkomputerowego z infrastrukturą HPC (High Performance Computing).

– W ICM jest zatrudnionych około 160 specjalistów. Wśród nich mamy zespół naukowców, który za pomocą superkomputerów potrafi rozwiązywać rozmaite problemy badawcze. Wykorzystując posiadaną wiedzę, biorą udział w projektach, w których razem z partnerami naukowymi albo klientami dzięki wiedzy matematycznej, informatycznej i wielkiej mocy przetwarzania realizują skomplikowane zadania obliczeniowe – podkreśla Maciej Remiszewski, zastępca dyrektora ICM ds. rozwoju i współpracy.

Drugim ważnym zadaniem ICM jest od wielu lat tworzenie i utrzymywanie obszernych repozytoriów danych, w szczególności naukowych, m.in. w formie Wirtualnej Biblioteki Nauki. Przechowywane informacje są na bieżąco udostępniane środowisku naukowemu. W tym obszarze działalności ICM wiele się dzieje. Przykładowo od niedawna centrum jest polskim partnerem projektu OpenAIRE (Open Access Infrastructure for Research in Europe), którego cel polega na tworzeniu i promowaniu infrastruktury otwartego dostępu do wiedzy w skali europejskiej.

Jeśli z jednej strony weźmie się pod uwagę doświadczenie ICM w obliczeniach HPC, zaś z drugiej kompetencje w zakresie wielkich zbiorów danych, to pojawienie się w tej instytucji analityki Big Data trzeba uznać za naturalną kolej rzeczy.

– To bardzo popularny temat, poruszany na wielu konferencjach branżowych. Problem w tym, że niewiele osób wie, jak praktycznie wykorzystywać wielkie zbiory danych. My mamy ludzi, którzy się na tym znają – stwierdza z satysfakcją Maciej Remiszewski.

Oczywiście do wykorzystywania i rozwijania wiedzy na temat Big Data oprócz ludzi potrzeba odpowiedniej infrastruktury. Dlatego powstało działające w ramach ICM Otwarte Centrum Danych i ich Analiz OCEAN z nowo wybudowanym budynkiem serwerowni na warszawskiej Białołęce. To obecnie najnowocześniejszy w Polsce ośrodek obliczeniowy stworzony z myślą o przetwarzaniu wielkich zbiorów danych.

Chcąc realizować swoje cele, Centrum OCEAN potrzebowało odpowiedniego sprzętu do przetwarzania wielkich zbiorów danych w modelu Apache Spark (platforma open source, która umożliwia bardzo szybkie analizowanie informacji, i to na dużą skalę).

Superkomputer Huawei w Centrum OCEAN

W tym celu ICM ogłosiło przetarg, w wyniku którego wpłynęło kilka ofert od dostawców superkomputerów. Spośród nich Huawei, spełniając formalne warunki ICM, zaproponował najkorzystniejszą ofertę.

– Dobrze skalkulowana oferta to jeden z czynników, które zdecydowały o wyborze. Dzięki temu w ramach posiadanych funduszy mogliśmy sobie pozwolić na zakup większego systemu niż w przypadku innych ofert. Ostatecznie więc zakupiliśmy od Huawei 360-węzłowy klaster do stworzenia środowiska Apache Spark – wyjaśnia Maciej Remiszewski.

– Klaster składa się pięciu modułów analitycznych, połączonych razem w superkomputer, który może oferować do obliczeń moc 8 tysięcy rdzeni CPU i wewnętrzną przestrzeń dyskową rzędu 8 PB. Komunikację z klastrem zapewniają 22 przełączniki Huawei CloudEngine, przeznaczone do obsługi ruchu w Centrum Przetwarzania Danych – dodaje Artur Pająk, Senior Product Manager w Huawei Enterprise.

Maciej Remiszewski

zastępca dyrektora ICM ds. rozwoju i współpracy

Wcześniej do projektów Big Data używaliśmy małych klastrów złożonych z kilkunastu serwerów. Dlatego uznaliśmy za niezbędne kupno wyspecjalizowanej, dedykowanej maszyny do Big Data. Postanowiliśmy zainwestować w superkomputer, który umożliwi nam robienie tego typu obliczeń na naprawdę dużą skalę.

– Apache Hadoop, a później Apache Spark były już od kilku lat wykorzystywane w wielu dziedzinach i projektach przez ICM – mówił z okazji podpisania umowy z Huawei profesor Marek Niezgódka, dyrektor ICM. – Zdecydowaliśmy się nabyć klaster HPC przeznaczony specjalnie do przetwarzania Big Data, aby sprostać rosnącemu popytowi na coraz bardziej złożone obliczenia.

Według naukowca inwestycja ma również stymulować rozwój zespołów analitycznych oraz wpłynąć na wzrost ich kompetencji związanych z różnymi zagadnieniami dotyczącymi analizy danych.

– Myślę, że sprzęt Huawei spełni nasze wymagania w rozwijaniu nowych algorytmów i metod analizy danych, opartych na wielordzeniowej, wieloprocesorowej i heterogenicznej architekturze komputerowej – dodaje prof. Niezgódka.

W stworzeniu środowiska do Big Data ważną rolę odegrał partner Huawei, firma Comtegra. Integrator zebrał pochlebne recenzje (ze strony kadry zarządzającej ICM) za szybkie i sprawne wdrożenie.

– Budowa środowiska analitycznego w takiej skali to złożone zadanie. Wyzwanie zwiększały wysokie wymagania ICM względem wielowymiarowości rozwiązania. Wdrożony przez nas meta-klaster jest dziś najbardziej uniwersalną i elastyczną platformą do analizy złożonych danych. Pozwala na uruchamianie zarówno iteratywnych zapytań przetwarzanych w pamięci, jak i zapytań w wielkiej skali. A to wszystko bez pracochłonnych rekonfiguracji i zmian w środowisku – wyjaśnia Dariusz Skonieczny, dyrektor ds. rozwoju w Comtegrze.

Planowana dalsza współpraca

Ważnym aspektem związanym z wdrożeniem klastra Huawei jest rozwijanie umiejętności specjalistów centrum, jak również jego klientów. ICM pomaga firmom poznać metody programowania m.in. w środowisku Apache Spark.

– Prowadzimy szkolenia, tworzymy projekty typu proof of concept, organizujemy warsztaty, na których sprawdzamy z klientami, jakie wnioski i nową wiedzę można uzyskać z posiadanych danych. Klaster Huawei pomoże nam w tym, bo tworzone przy jego użyciu środowisko będzie świetnym poligonem do testów, zarówno dla naszych pracowników, jak i partnerów ICM – tłumaczy Maciej Remiszewski.

Już teraz do ICM zgłaszają się zainteresowane takimi działaniami podmioty specjalizujące się w telekomunikacji i usługach internetowych. Z pomocy Centrum OCEAN w zdobywaniu doświadczenia w zakresie Big Data chcą skorzystać także firmy z branży medialnej, finansowej, transportowej i ogólnie rozumianego retailu.

Klaster Huawei w Centrum OCEAN to w obszarze zastosowań Big Data największe wdrożenie w Europie Wschodniej, w którym wykorzystano sprzęt tej marki (we Francji producent może się pochwalić podobnym projektem w Criteo).Poza tym stanowi jedną z największych europejskich instalacji bazujących na oprogramowaniu Apache Spark. Dla ICM wybór tego, a nie innego producenta okazał się bardzo korzystny. Dostawa superkomputera Huawei dla Centrum OCEAN to zaledwie początek współpracy z tym producentem w bardzo przyszłościowym obszarze, jakim jest analityka wielkich zbiorów danych.

– Wdrożenie nie jest tego rodzaju przypadkiem, gdy po dostarczeniu sprzętu wzajemne relacje się kończą. Już teraz trwają rozmowy dotyczące dalszej współpracy i następuje stały przepływ wiedzy między naszymi specjalistami oraz ekspertami producenta – tłumaczy Maciej Remiszewski.

Współpraca obejmująca klaster dla Apache Spark jest już drugim wspólnym projektem ICM i Huawei. W pierwszym kwartale 2015 r. firma dostarczyła do centrum 250 węzłów klastra HPC. Realizacja obu projektów udowadnia, że Huawei spełnia wszystkie wymogi stawiane producentom infrastruktury IT przez uczelnie, które – jeśli chodzi o jakość rozwiązań i ich wydajność – należą do najbardziej wymagających klientów.