Zarządzanie danymi z chmury otwiera nowe możliwości

„Integratorzy będą mogli wykorzystywać nowe mechanizmy bazujące na sztucznej inteligencji, do analizy danych klientów oraz rekomendowania najbardziej optymalnych rozwiązań do ich przechowywania i zarządzania nimi”– Omer Asad, wiceprezes HPE i dyrektor generalny działu Storage, Data Management SaaS & HCI.

CRN W ciągu ostatnich 10 lat zmianie uległo bardzo wiele kwestii związanych z przechowywaniem danych i zarządzaniem nimi – zarówno w warstwie technicznej, jak i biznesowej. Czy po tych zmianach będziemy mogli liczyć na chwilę oddechu, czy też powinniśmy przygotować się na kolejne?

Omer Asad Tę sytuację należy rozpatrywać przez kontekst charakteru danych, które mogą być ustrukturyzowane, np. bazy danych lub repozytoria backupu, jak też nieustrukturyzowane, a zatem pliki czy różnego typu informacje spływające z czujników Internetu Rzeczy. Ilość danych obu rodzajów dramatycznie rośnie, ale nad danymi ustrukturyzowanymi z założenia łatwiej jest zapanować. Natomiast w przypadku danych nieustrukturyzowanych nasi klienci sami dostrzegają, że w ich zbiorach panuje wielki bałagan. Rozmawiałem ostatnio z jednym z szefów IT dużej firmy, który przyznał, że ma 90 tys. działających wirtualnych maszyn i nie ma pojęcia, co większość z nich robi, ale boi się którąkolwiek wyłączyć, żeby nie wstrzymywać działalności biznesowej w jakimś obszarze. Uważam więc, że w firmach konieczne będzie bardzo szerokie wprowadzenie kontekstowych mechanizmów opisujących meta-danymi posiadane przez nie zasoby oraz umożliwiających ich przeszukiwanie i analizowanie. W przedsiębiorstwach, które tego nie zrobią, problem będzie się tylko pogłębiał.

Rozwiązania do zaawansowanego zarządzania danymi są już obecne na rynku od pewnego czasu. Co stoi na przeszkodzie, aby były powszechnie wdrażane?

Jest wiele wyzwań, które mogą utrudniać ten proces. Przede wszystkim w firmach funkcjonuje bardzo wiele systemów IT, często wiekowych, które nie zawsze mogą być objęte mechanizmem tworzenia meta-danych. Kolejnym wyzwaniem jest niespójna strategia korzystania z publicznych zasobów chmurowych – wciąż wiele firm ma trudności z podjęciem decyzji, które dane będą w chmurze, a które on-premise i w jaki sposób w obu przypadkach będą zarządzane. U części klientów problem z zarządzaniem danymi mógłby zostać rozwiązany poprzez wprowadzenie obiektowych pamięci masowych, ale na znaczący wzrost ich popularności trzeba będzie jeszcze poczekać. Do tego dochodzą często też zaniedbywane środowiska backupu i archiwizacji. W efekcie, w infrastrukturze klientów jest wiele „wysp” z pamięciami masowymi i znajdującymi się w nich danymi, a każda z tych wysp rośnie, zamiast ulec integracji w jedną całość.

Jak zatem nad tym zapanować?

Firmy zatrudniają coraz więcej osób na takich stanowiskach jak inżynierowie danych lub główni specjaliści ds. danych, jednak większość tych osób skupia się nadal na informacji nieustrukturyzowanej. My zaś uważamy, że potrzebne jest tu podejście całościowe. Metadane powinny być świadome kontekstu danych, niezależnie od ich charakteru i miejsca przechowywania. To zresztą ułatwi też podejmowanie decyzji, które dane lub ich starsze wersje można usunąć, a których nie, co odciąży również systemy backupu i archiwizacji. Dlatego sami podjęliśmy próbę stworzenia takiej platformy – Data Services Cloud Console. Umożliwia ona zarządzanie z poziomu chmury na razie wybranymi modelami naszych macierzy dyskowych, ale w planach jest rozszerzenie listy obsługiwanego sprzętu, być może też na rozwiązania konkurencyjne, a także kontekstowe katalogowanie danych. Naszym głównym celem jest oddzielenie procesu zarządzania macierzami od zarządzania znajdującymi się na nich danymi, a następnie uproszczenie obydwu. Obok usług zarządzania danymi planujemy dodać też funkcje związane z przywracaniem środowiska do pracy po wystąpieniu awarii lub katastrofy oraz moduły audytu i weryfikacji zgodności procesów dotyczących zarządzania danymi z regulacjami prawnymi.

Z tego typu wprowadzaniem dodatkowej warstwy abstrakcji do środowiska pamięci masowych mieliśmy już do czynienia w przypadku rozwiązań do wirtualizacji macierzy, dostępnych w ofercie kilku producentów. Tam jednak funkcjonalność wirtualizowanej macierzy była degradowana do poziomu zwykłej półki dyskowej, zaś wirtualizator przejmował wszystkie funkcje związane z zarządzaniem nośnikami i danymi. Czy chmurowe systemy zarządzania środowiskiem macierzy będą działały w podobny sposób?

Rzeczywiście, w przypadku tradycyjnej wirtualizacji pamięci masowych to wirtualizator przejmuje na siebie odpowiedzialność za zarządzanie sprzętem i danymi. Jeżeli jest to wydajne i bogate w funkcje rozwiązanie, to sytuacja taka jest z korzyścią dla użytkownika, ale może też się zdarzyć, że funkcjonalność podłączonej do niego macierzy była większa i niektóre opcje zostaną utracone. My przyjęliśmy inne podejście – nie prowadzimy wirtualizacji sprzętu, a jedynie ułatwiamy zarządzanie nim z jednego miejsca, niezależnie od rzeczywistej lokalizacji macierzy dyskowej. Bazujemy na powszechnie przyjętych w branży standardach, dostępnych poprzez interfejs API. Dzięki temu klienci nadal mogą korzystać z unikalnych funkcji danego modelu macierzy, jeśli takie ma. Specyfikacja tego interfejsu API zostanie opublikowana, więc konkurencyjni dostawcy systemów dyskowych będą mogli dostosować je do współpracy z naszą platformą chmurową. Mogą również stworzyć API dla własnych rozwiązań, żebyśmy to my dokonali takiej integracji. Tylko, niestety, ich strategia produktowa często bazuje na zamkniętym ekosystemie, co utrudnia klientowi podjęcie decyzji. Ja jestem zdecydowanym przeciwnikiem podejścia vendor lock-in, dlatego dbam, aby migracja środowiska pamięci masowych była łatwa zarówno na nasze rozwiązania, jak też z naszych na inne. Klient nie może czuć, że znalazł się w pułapce, związanej chociażby z wysokim kosztem migracji danych do środowiska innego producenta.

W niektórych modelach swoich macierzy wykorzystujecie mechanizmy sztucznej inteligencji do analizy pracy urządzenia i przewidywania ryzyka wystąpienia potencjalnych problemów. Czy widzicie możliwość zastosowania sztucznej inteligencji w podobny sposób do zarządzania danymi?

Oczywiście. Zresztą nad tego typu mechanizmami prowadzimy zaawansowane prace. Dlatego niedawno przejęliśmy firmę Zerto, która świadczy chmurowe usługi zarządzania danymi i zabezpieczania ich. Sztuczna inteligencja będzie bardzo pomocna w rozbudowanych środowiskach klientów, w których jest wiele systemów pamięci masowych. Dzięki takim mechanizmom będzie możliwe zautomatyzowanie decyzji dotyczących tego, na której macierzy dane wymagające dostępności z określonym poziomem SLA powinny być przechowywane. Informacje o wydajności i niezawodności poszczególnych systemów dyskowych będą zbierane przez cały czas, co ułatwi z jednej strony dostrojenie i zwiększenie wartości tych parametrów, a z drugiej dopasowanie ich do aktualnych potrzeb użytkowników. Zadaniem administratorów będzie wyłącznie zaakceptowanie rekomendacji lub w ogóle wyrażenie zgody, aby cały proces dział się automatycznie.

Czy docelowo, w środowisku wyposażonym w narzędzia umożliwiające kontekstowe zarządzanie danymi, za ten proces nadal powinny odpowiadać zespoły IT? Czy też należy zakładać, że ich rola wkrótce ulegnie zmianie, a może powstaną osobne działy zarządzania informacją, z którymi IT będzie ściśle współpracować?

To raczej będzie naturalny proces ewolucji struktury wewnątrz przedsiębiorstw. Nie wszystko da się zaplanować, czego świadkami już parokrotnie byliśmy. Wielu informatyków i programistów w firmach próbowało korzystać z usług chmurowych do momentu, gdy okazało się, że na przykład nie pozwala im na to prawo. My tylko dajemy narzędzie do zarządzania z chmury, co zresztą nie jest nową koncepcją, bo w podobny sposób można już zarządzać urządzeniami sieciowymi czy sprzętem mobilnym. Ewentualna modyfikacja struktury firmy, będąca skutkiem wdrożenia nowego narzędzia, zależy od niej samej.

Decyzja o skorzystaniu z usług w chmurze publicznej do zarządzania danymi od razu rodzi wątpliwości co do bezpieczeństwa. Jakie wyzwania w tym zakresie widzicie i jak sobie z nimi radzicie?

W kontekście zarządzania urządzeniami mamy duże doświadczenie płynące z dwóch usług. Pierwsza to wspomniany już InfoSight – jest to mechanizm analizy pracy macierzy dyskowych, kupiony wraz z firmą Nimble Storage, a następnie rozszerzony przez nas o funkcję analizy pracy naszych serwerów. Druga usługa to Aruba Central, która umożliwia zarządzanie urządzeniami sieciowymi Aruba Networks. Z obu usług korzystają tysiące klientów i nigdy nie mieliśmy żadnej sytuacji kryzysowej związanej z bezpieczeństwem danych. Ważne też podkreślenia jest, że mechanizmy tych usług zostały stworzone tak, aby niemożliwe było wykorzystanie ich do kradzieży poufnych danych ze środowiska klienta. Algorytmy tych usług nigdy nie wysyłają zapytania o dane do urządzeń, ponieważ ten proces jest odwrócony – to urządzenia wysyłają informacje o statusie swojej pracy do modułu zarządzającego. Zadbaliśmy także, aby dane spływające z urządzeń różnych klientów były odizolowane od siebie i zagwarantowaliśmy ich szyfrowanie. Pozytywnie zweryfikowaliśmy też zgodność całej procedury z RODO i zapewniamy, że informacje dotyczące sprzętu europejskich klientów nie opuszczają Europy.

Czy, w kontekście takich zmian w modelu przechowywania i przetwarzania danych, rola partnerów kanałowych w jakiś sposób ulegnie zmianie?

Lista usług, które mogą świadczyć integratorzy dzięki tym zmianom, znacznie się rozrasta. Będą mogli wykorzystywać nowe mechanizmy bazujące na sztucznej inteligencji, do analizy danych klientów oraz rekomendowania najbardziej optymalnych rozwiązań do ich przechowywania i zarządzania nimi. Wcześniej takie rekomendacje przygotowywane były głównie na bazie szacunków lub samodzielnie tworzonych skryptów, które nie uwzględniały wielu aspektów. Żeby zapewnić taką możliwość naszym partnerom, kupiliśmy firmę CloudPhysics, która stworzyła platformę do analizy danych. Zdecydowaliśmy, że partnerzy będą mogli korzystać z niej za darmo – zostanie udostępniona pod koniec tego roku. Oczywiście nadal możliwe będzie, aby klienci przekazywali współpracującym z nimi integratorom zarządzanie swoim środowiskiem z wykorzystaniem platformy chmurowej.

Nie można zapominać jednak, że fizycznie te dane muszą być gdzieś przechowywane. Jak waszym zdaniem będzie wyglądała przyszłość nośników, które do tego służą? Przez ostatnie lata jesteśmy świadkami rewolucji spowodowanej przez zdobywające coraz większe uznanie pamięci flash NVMe. Są one coraz częściej stosowane w profesjonalnych systemach pamięci masowych i wszystko wskazuje na to, że wkrótce zdominują rynek.

Rzeczywiście, półprzewodnikowe pamięci flash doprowadziły do rewolucji ze względu na łatwość zarządzania, przewidywalność odnośnie do awaryjności, mniejszy niż w przypadku dysków pobór prądu oraz większą gęstość zapisu, co przekłada się na możliwość zmniejszenia wymiarów urządzeń pamięci masowych. Cieszy też, że cały czas tanieją. Natomiast dzięki zastosowaniu w dużych systemach nowych nośników flash NVMe doszło do ciekawego odwrócenia sytuacji – do tej pory to pamięci masowe były wąskim gardłem, natomiast obecnie stały się nim inne elementy infrastruktury IT, przede wszystkim sieć. Między innymi dlatego powstał protokół NVMe over Fabric, żeby optymalnie wykorzystać posiadaną przez firmy infrastrukturę Fibre Channel. Uważam jednak, że nie jest to najbardziej optymalne rozwiązanie, szczególnie jeśli klienci nie dysponują infrastrukturą Fibre Channel o przepustowości 16 lub 32 Gb/s.

Czy to oznacza, że standard Fibre Channel, uważany za jedno z najbardziej stabilnych i niezawodnych rozwiązań w branży IT, odejdzie do lamusa?

Na pewno nie od razu, bo korzysta z niego bardzo wielu klientów, ale w dłuższej perspektywie czasowej raczej jest to nieuniknione. Uważam, że ze względu na olbrzymią popularność standardu Ethernet znacznie częściej stosowane będą zapewniające podobną wydajność, jak NVMe-oF,protokoły NVMe over RoCE lub TCP RDMA, które gwarantują bezpośredni dostęp do pamięci poprzez infrastrukturę ethernetową. Jest ona nieustannie rozwijana i w centrach danych powszechne stają się już łącza o przepustowości 40 Gb/s, gwarantujące bardzo małe opóźnienia przesyłanych danych. A skoro efektywna wydajność transferu danych w sieci Ethernet zbliżyła się do tej zapewnianej przez Fibre Channel, to raczej oczywistą decyzją klientów będzie, aby utrzymywać tylko jedną, a do tego łatwiejszą w zarządzaniu infrastrukturę sieciową, zamiast dwóch.

Jednym z ciekawych trendów jest integracja systemów pamięci masowych i backupu, także długoterminowego. Dzięki temu możliwe jest korzystanie z kopii danych, na przykład wirtualnych maszyn, natychmiast po wystąpieniu awarii środowiska podstawowego. Czy tego typu podejście ma sens i utrzyma się na rynku?

Nie dość, że się utrzyma, to uważam, że ta integracja powinna postępować jeszcze głębiej, a więc funkcje backupu należy zintegrować bezpośrednio z systemami pamięci masowych. Częściowo to zresztą już się dzieje, ponieważ w macierzach dyskowych obecne są snapshoty, czyli kopie migawkowe, ale one zapewniają tylko krótkoterminowe przywracanie danych z nieodległego momentu w przeszłości. Natomiast w procesie tworzenia bardziej rozbudowanego systemu, spełniającego wymogi skomplikowanej strategii zabezpieczania danych, klient jest zdany sam na siebie. Jego sytuację utrudnia też fakt, że obsługa środowiska backupowego jest bardzo droga i czasem nieskuteczna, bo często zdarza się, że administratorzy mają trudności z odzyskaniem danych. Między innymi z tego powodu zdecydowaliśmy, że w naszej chmurowej konsoli będzie dostępna także funkcja backupu, realizowana z zastosowaniem sztucznej inteligencji, aby zminimalizować ryzyko niepowodzenia tego procesu.

Podobnym trendem jest podejmowana przez niektórych producentów oprogramowania do backupu próba integracji go z mechanizmami chroniącymi przed złośliwym kodem. Czy należy traktować to jako ciekawostkę, czy też może trzeba zakładać, że wkrótce antywirusy trafią także do macierzy dyskowych?

Ten kierunek jest jak najbardziej słuszny, a mechanizmy zwalczające złośliwy kod powinny jak najszybciej trafić również do systemów pamięci masowych w celu analizy zgromadzonych w nich plików. Tam zresztą będą mogły działać z bardzo dużą wydajnością, bez obciążania serwerów lub też urządzeń końcowych. Pozwoliłoby to również na uniknięcie zainfekowania stacji roboczych, jeszcze zanim podejrzany plik zostanie przesłany przez sieć.

Pomiary wydajności systemów pamięci masowych to jeden z najtrudniejszych, a jednocześnie budzących duże emocje tematów. Wcześniej dobrym punktem odniesienia były wyniki publikowane przez Storage Performance Council, ale od kilku lat testom wydajnościowym nie są już poddawane najnowsze modele systemów dyskowych liczących się producentów, także HPE. Dlaczego tak się dzieje i jakie źródło informacji o wydajności pamięci masowych jest dziś najbardziej wiarygodne?

Z czasem testy porównawcze SPC stały się nieco mniej istotne ze względu na brak możliwości uwzględnienia takich czynników zapewniających wartość dodaną, jak kompleksowe usługi do zarządzania danymi, które są obecnie standardem u wielu popularnych dostawców pamięci masowych. Jest to główny powód, dlaczego dziś coraz mniej wiodących producentów publikuje wyniki w rankingu SPC. I niestety, nie istnieje obecnie żadne inne źródło porównujące parametry wydajnościowe systemów pamięci masowych.

Rozmawiał Krzysztof Jakubik

Omer Asad

W HPE odpowiada za poszerzenie portfolio firmy w zakresie chmury i zarządzania danymi. Poprzednio pracował w Pure Storage, gdzie zajmował się zarządzaniem w obszarze oprogramowania oraz produktami wielochmurowymi, strategią, marketingiem technicznym i funkcjami architektury rozwiązań. Zajmował również kierownicze stanowiska w Riverbed Technology, NetApp i Sun Microsystems. Z wykształcenia jest informatykiem, tytuł magistra uzyskał na amerykańskiej uczelni DukeUniversity. Obecnie mieszka w San Jose w Kalifornii.