W takim środowisku bardzo ważne jest minimalizowanie opóźnień, czy więc nie będzie bardziej korzystne instalowanie nośników bezpośrednio w serwerach? Czy w tym kontekście w ogóle będą przydatne tradycyjne macierze dyskowe?

Środowiska sztucznej inteligencji uczenia maszynowego składają się z niezwykle dużych zbiorów danych. Nierzadko wykorzystywane są w nich petabajty danych, a słyszałem też już o repozytoriach w skali eksabajtów. Z oczywistych względów serwery nie są w stanie pomieścić takiej ilości danych wewnętrznie, a dostęp do nich musi być zapewniony za pomocą innych środków, w tym macierzy dyskowych. W przypadku serwerów najważniejszą kwestią jest dostarczanie do nich danych, aby mogły być przetworzone za pomocą ich mocy obliczeniowej. Tu wyzwaniem jest skalowalność, a problem z wydajnością pamięci masowych robi się dopiero później, gdy trzeba udostępnić te dane użytkownikom w czasie jak najbardziej zbliżonym do rzeczywistego.

Jak skutecznie można dziś mierzyć tę wydajność? Przez wiele lat funkcjonowała organizacja Storage Performance Council, która stworzyła serię testów wydajnościowych SPC, zaakceptowanych prawie przez całą branżę. Ale obecnie wydaje się, że projekt umarł śmiercią naturalną…

Niestety, ze względu na wzrost funkcjonalności systemów pamięci masowych ich wydajność stała się uzależniona od ogromnej liczby czynników. W większości porównywalnych ze sobą macierzy zainstalowane są podobne nośniki, więc to nie od nich ta wydajność zależy, ale głównie od sprzętowej konstrukcji kontrolerów macierzowych oraz ich oprogramowania. Dla przykładu, nośniki nadal są drogie, więc popularne jest korzystanie z technik zmniejszających ilość przechowywanych danych, jak kompresja czy deduplikacja. Nie dość, że stosowanie ich do przeliczania danych w czasie rzeczywistym negatywnie wpływa na wydajność, to ten wpływ w praktyce jest niemożliwy do określenia, gdyż zależy od rodzaju aktualnie przetwarzanych danych. Co więcej, wydajność takiej macierzy może się zmienić w wyniku instalacji nowszej wersji zarządzającego nią oprogramowania, która na przykład będzie miała zaimplementowane bardziej rygorystyczne mechanizmy ochronne likwidujące jakąś podatność na zagrożenie, ale wpływające na szybkość pracy. Kolejny czynnik to wiele dostępnych opcji, w tym możliwość instalacji kart z procesorami GPU przyspieszającymi proces przetwarzania danych. Jednak nade wszystko ważna jest kwestia szybkości dostępu do danych. Gdy w macierzach dominowały mechaniczne twarde dyski, średni czas dostępu liczony był w milisekundach i różnica rzędu 20–30 procent pomiędzy konkurencyjnymi rozwiązaniami była znacząca. Pamięci flash sprowadziły ten parametr na poziom mikrosekund, a dzięki protokołowi NVMe zaczynamy mówić o nanosekundach. Oczywiście zapotrzebowanie na skrócenie czasu dostępu też wzrosło, ale różnice pomiędzy macierzami – przy założeniu, że wyłączone są funkcje spowalniające – zrobiły się niewielkie. Natomiast te funkcje zazwyczaj są włączone, co powoduje, że przy tak ogromnej liczbie możliwych kombinacji porównywanie staje się bezcelowe.

Czy technologia kwantowego przetwarzania i przechowywania danych spowoduje, że wszystkie te rozważania staną się przeszłością, bo wejdziemy na zupełnie inny poziom wydajności? Czy zajmujecie się już tymi zagadnieniami?

Abyśmy mogli ustanowić techniczną grupę roboczą muszą zgłosić się do nas trzy firmy działające w danym obszarze. Ostatnio założyliśmy taką grupę roboczą dotyczą przechowywania danych w molekułach DNA. W przypadku technologii kwantowej na razie jest ona rozwijana w instytucjach badawczych, więc za wcześnie jest, aby mówić o branżowej standaryzacji. Natomiast jeśli komercyjne przedsiębiorstwa uznają, że już jest czas, aby przekształcić to w produkt lub rozwiązanie dla swoich klientów, my jesteśmy otwarci na współpracę w celu stworzenia odpowiednich standardów.

Coraz więcej dostawców pamięci masowych rozszerza swoje rozwiązania o nowe funkcje związane z ochroną danych, chociażby zabezpieczające przed skutkami ataku ransomware lub umożliwiające integrację z mechanizmami antywirusowymi. Czy SNIA angażuje się także w tym obszarze, aby zapewnić interoperacyjność pomiędzy różnymi rozwiązaniami?

Mamy techniczną grupę roboczą ds. bezpieczeństwa, która zajmuje się takimi kwestiami. Analizujemy regulacje prawne wypracowane przez rządy poszczególnych państw lub regionów, jak Unia Europejska. Wyszukujemy najlepsze praktyki dotyczące bezpieczeństwa i pomagamy implementować je w specyfikacjach technicznych. Natomiast nie tworzymy mechanizmów prowadzenia testów interoperacyjności. W tej dziedzinie musimy być bardzo ostrożni, ponieważ mamy ograniczenia regulacyjne i antymonopolowe – nie możemy w żaden sposób wpływać na kształt rynków czy ceny rozwiązań. Prowadząc nasze działania edukacyjne musimy też być neutralni jak tylko to możliwe. Nie możemy też promować danej technologii poprzez tworzenie jej negatywnych porównań z innymi.