Przedsiębiorstwa zmagają z ciągłym przyrostem danych nieustrukturyzowanych. Choć nie jest to nowe zjawisko, część firm sobie z nim nie radzi.  Dzieje się tak z kilku powodów. Po pierwsze ze względu na duże zróżnicowanie rozwiązań do przechowywania i przetwarzania danych, a po drugie problemów z oszacowaniem potrzeb z zakresu zarządzania danymi. Do tego dochodzi nabieranie się na marketingowe sztuczki dostawców usług chmurowych czy wreszcie nadmierne rozproszenie użytkowników.  

Te dwa  ostatnie problemy nasiliły się w czasie pandemii, kiedy trzeba było w ekspresowym tempie zapewnić dostęp do informacji osobom pracującym w domach. Jednym z najprostszych, choć niekoniecznie najtańszych sposobów było wykupienie usług Amazona czy Microsoftu. To jednak zrozumiała decyzja, jeśli wziąć pod uwagę, że w gorącym okresie nie było czasu na wnikliwe analizy. I choć pośpiech nie jest najlepszym doradcą, to nigdy nie jest za późno, aby sporządzić bardziej wnikliwe kalkulacje i lepiej dostosować się do zmieniających warunków. Jest to możliwe nie tylko dzięki elastyczności usług chmurowych, ale także narzędziom ułatwiającym procesy związane z przetwarzaniem i przechowywaniem danych.  Co ważne, dostawcami tego typu rozwiązań są na ogół bardzo młode firmy, które mają świeże spojrzenie na kwestie związane z zarządzeniem plikami i obiektami. 

Pliki w chmurze 

Nasuni jest jednym z wielu startupów szukających sobie miejsca w segmencie  chmury hybrydowej.  To rynek, przed którym rysują się bardzo ciekawe perspektywy. Analitycy z Markets and Markets prognozują, że w 2023 r. jego wartość sięgnie 97 mld dol. (w 2018 było to 44 mld dol.). Nasuni postawiło sobie za cel zastąpienie konwencjonalnych serwerów i systemów NAS usługami przechowywania plików w chmurze. Szefowie startupu przekonują, że przechowywanie danych niestrukturyzowanych w chmurze publicznej wymaga specjalnych rozwiązań. Najwięcej trudności sprawia obsługa plików przechowywanych w chmurze mocno oddalonej od użytkowników. Nasuni chce zoptymalizować produktywność pracowników, jednocześnie zmniejszając koszty i  oszczędzając zasoby IT.

W tym celu firma opracowała globalny system plików UniFS, który integruje się z obiektową pamięcią masową i może być skalowany bez ograniczeń w ramach Amazon, Azure lub Google Cloud.  System realizuje takie funkcje jak tworzenie kopii zapasowych, synchronizacja plików czy odzyskiwanie danych po awarii. Według specjalistów Nasuni ostatni z wymienionych procesów może trwać jedynie 15 minut. 

Nasuni obsługuje najważniejsze protokoły, w tym SMB (CIFS), NFS, FTP/ /SFTP i HTTPS.  Użytkownicy uzyskują dostęp do plików za pośrednictwem Nasuni Edge Appliance, czyli maszyn wirtualnych lub urządzeń x86 z zainstalowanym oprogramowaniem tej marki. Obszar, w którym porusza się amerykański startup, ma spory potencjał. 

Analitycy IDC szacują, że w latach 2021-2025 średnia stopa zwrotu ze sprzedaży usług związanych z przechowywaniem plików w chmurze wyniesie 41 proc. i w 2025 r. osiągnie wartość 4 mln dol., czyli niemal pięć razy więcej niż w ubiegłym roku. Warto podkreślić, że w przypadku pamięci obiektowej prognozy mówią o 21 proc. wzroście, aczkolwiek  wielkość uzyskiwanych obrotów zdecydowanie przekroczy te uzyskiwane w segmencie przechowywania plików. 

Chcemy za kilka lat zgarniać z  rynku około 5 miliardów dolarów rocznie. Jak na razie możemy pochwalić się 120-procentową stopą wzrostu przychodów. Oznacza to, że jeśli klient wyda 1 dolara, w tym roku, w przyszłym będzie to 1,20 dolara, a w jeszcze kolejnym 1,50 dolara. Co istotne, około 30 procent naszych wpływów pochodzi ze współpracy z wielką trójką: Amazonem, Microsoftem i Google’em – mówi Paul Flanagan, CEO Nasuni.  

Co ciekawe, Nasuni jednocześnie konkuruje z wymienionymi koncernami. Swojej szansy upatruje w tym, że Amazon czy Microsoft koncentrują się na usługach przechowywania danych bazujących na  pamięci obiektowej, a ich oferta w zakresie plików nie pokrywa potrzeb szerokiej grupy odbiorców. Z kolei bardzo ważnym graczem w tym sektorze jest NetApp, z którym Nasuni musi ostro rywalizować o klientów. Zresztą Paul Flanagan przyznaje, że około 40 proc. przychodów jego firmy generują klienci przejęci od konkurencji.

Drugie podejście Davida Flynna

Niewykluczone, że plany Nasuni częściowo pokrzyżuje David Flynn. Ten przedsiębiorca z Kalifornii jako pierwszy wprowadził na rynek nośniki SSD z interfejsem PCI. W 2014 r. jego firma Fusion-io została przejęta za 1 mld dol. przez SanDisk. Niedługo potem Flynn wystartował z nowym projektem Primary Data, a więc platformą do zarządzania danymi (funkcję Chief Scientist pełnił wtedy w tej firmie Steve Wozniak). 

Chociaż Primary Data była firmowana przez znane postacie i pozyskała  60 mln dol. od funduszy venture capital, przetrwała jedynie cztery lata. Jednak sam David Flynn nie złożył broni i 2010 r. założył startup Hammerspace, będący w pewnym stopniu kontynuacją wcześniejszego przedsięwzięcia. Firma opracowała  Global Data Environment (GDE), który unifikuje rozproszone silosy plików i obiektów w pojedynczy zasób sieciowej pamięci masowej (NAS). W ten sposób zapewnia się aplikacjom dostęp na żądanie do nieustrukturyzowanych danych w lokalnych chmurach prywatnych, hybrydowych lub publicznych. Idea polega na tym, żeby punkty dostępu do danych były aktualizowane za pomocą metadanych GDE. W rezultacie cyfrowe zasoby są cały czas widoczne i można do nich uzyskać dostęp z dowolnego miejsca. Przedsiębiorcy potrzebują rewolucyjnego podejścia do dostępu do danych. Nasze rozwiązanie przełamuje ograniczenia techniczne występujące podczas przechowywania plików. W ten sposób zwalniamy firmowe zespoły IT z niekończącej się pracy, mającej na celu łączenie różnych systemów pamięci masowej – tłumaczy David Flynn.

Z punktu widzenia użytkownika operacja jest prosta, bo wystarczy połączyć się z systemem, aby uzyskać dostęp do wszystkich danych. Przy czym niezależnie od tego, czy znajdują się w lokalnej pamięci masowej w wielu witrynach, na platformie AWS, Azure czy GCP, pliki pojawiają się w folderach tak, jakby znajdowały się na lokalnym serwerze NAS. Dostęp dla użytkowników i aplikacji odbywa się przez NFS lub SMB, a także przez sterowniki CSI, jeśli dane są odczytywane lub zapisywane przez aplikacje uruchomione na platformie Kubernetes. 

Jednym z klientów Hammerspace jest kanadyjskie studio animacji Global GFX. Firma zatrudnia animatorów rozsianych po całym świecie. GDE umożliwia im zachowanie ciągłości produkcji, na przykład europejscy pracownicy wylogowują się wieczorem, a koledzy z półkuli zachodniej w tym samym czasie kontynuują pracę.  

To tak, jakby wszyscy byli w tym samym pokoju, mimo że są oddzieleni kilkoma strefami czasowymi – tłumaczy Floyd Christofferson, szef produktu w Hammerspace.

Hammerspace działa w podobnym segmencie rynku co Nasuni czy CTERA, które również zapewniają spójny dostęp do plików w różnych lokalizacjach geograficznych, jednakże obie firmy wykorzystują chmurę publiczną jako miejsce przechowywania danych.

Zasadniczo różnimy się od naszych konkurentów. Oni skupiają się na infrastrukturze i buforują dane. To, co robimy, to całkowite oddzielenie danych od dowolnej infrastruktury – tłumaczy David Flynn.

Wielkie sprzątanie serwerowni

Zakup nadmiarowej przestrzeni dyskowej czy przechowywanie nieużywanych przez długie miesiące plików na drogich nośnikach to tylko część błędów popełnianych przez firmowe działy IT.  Wprawdzie w małych przedsiębiorstwach straty wynikające z tego tytułu nie są wielkie, ale w globalnych korporacjach sięgają milionów dolarów. W tym kontekście Krishna Subramanian, współzałożyciel i COO Komprise, przywołuje przykład globalnego banku, którego przechowywanie bezużytecznych danych kosztowało 9 mln dol. rocznie. 

Komprise opracował platformę do obsługi nieustrukturyzowanych danych, a także ich archiwizacji i analizy. Oprogramowanie umożliwia dostęp do plików oraz obiektów umieszczonych w chmurach publicznych bądź lokalnych centrach danych. System składa się z dwóch komponentów: Komprise Director oraz Komprise Observer. Pierwszy z wymienionych administruje danymi i zazwyczaj uruchamia się go w modelu SaaS, zaś drugi jest wirtualną maszyną umieszczaną w środowisku klienta, a jego rola polega na inwentaryzacji pamięci masowych oraz realizacji polityk zdefiniowanych przez Komprise Directora. System wykrywa filtry i magazyny obiekty w infrastrukturze IT organizacji, zarówno lokalnie, jak i w chmurze, indeksuje ich zawartość i buduje indeks globalny w chmurze publicznej AWS. Wśród realizowanych funkcji znajduje się między innymi identyfikowanie plików pod kątem częstotliwości ich używania. Taką operację można wykonać bez wsparcia specjalistycznego oprogramowania, ale taka metoda działa  przy stosunkowo niewielkiej liczbie plików. 

Skala trudności wzrasta wraz liczbą przechowywanych plików – w przypadku dużych koncernów są one liczone w setkach tysięcy, a nawet milionach. Jeden z klientów Komprise posiada indeks obejmujący ponad sto miliardów plików. Dlatego ciężko obejść się w takich sytuacjach  bez automatyzacji. Komprise pozwala zastosować wiele reguł, w tym przeniesienie wszystkich plików nieużywanych przez rok z serwera NAS do obiektowej pamięci masowej.  Indeksy pozwalają odpytać o to, ile miejsca zajmują wskazane pliki lub ile danych znajduje się na przykład na systemie NetApp, czy też ile dokumentów wytworzono w ciągu dnia, tygodnia czy ostatnich kilku miesięcy. Oprogramowanie Komprise może być również używane do dodawania tagów do plików, co umożliwia tworzenie szczegółowych zapytań – dajmy na to, które pliki zawierają wrażliwe  dane osobowe. Komprise szacuje, że  przejrzyste przenoszenie rzadziej używanych danych nieustrukturyzowanych do tańszej pamięci ogranicza koszty przechowywania na poziomie od 65 do 70 proc.

Pamięci masowe i Web3 

Nowa koncepcja Internetu Web3 po raz kolejny wywołała dyskusję o rozproszonej pamięci masowej, która dzieli dane na komponenty i przechowuje je w sieci peer-to-peer. Jak na razie trudno przewidzieć czy takie rozwiązanie spotka się z jakimkolwiek zainteresowaniem ze strony administratorów pamięci masowych. Część analityków oraz ekspertów podchodzi dużą rezerwą do tego tematu. Ich zdaniem odporność oraz wydajność tego typu sieci nie zaspokajają wymagań klientów biznesowych. Tymczasem na rynku pojawiają się firmy, które mają odmienne zdanie.  Jedną z nich jest założony w 2021 r. startup Filebase. 

Web3 pozwala nam budować chmurę na poziomie eksabajtów bez konieczności uruchamiania dodatkowych serwerowni. Im więcej sieci dodamy do naszej platformy, tym większą uzyskujemy pojemność, mając dostęp do wszystkich danych – mówi Zac Cohen, współzałożyciel i dyrektor operacyjny Filebase. 

Firma stworzyła platformę obiektowej pamięci masowej opartą na zdecentralizowanych sieciach pamięci masowej. Rozwiązanie ujednolica wiele sieci w ramach jednego interfejsu API zgodnego z S3, dzięki czemu zdecentralizowana pamięć masowa jest dostępna i łatwa w obsłudze dla wszystkich użytkowników. Ponadto startup opracował technologię buforowania brzegowego, co pozwala zwiększyć przepustowość sieci i skrócić czasy odpowiedzi odczytu i zapisu. Filebase  dostarcza oprogramowanie do przechowywania obiektów i utrzymuje klaster serwerów aplikacji podłączonych do różnych zdecentralizowanych sieci innych firm (w tym Sia, Skynet i Storj), w celu zapewnienia replikacji geograficznej. 

Dzięki natywnej replikacji geograficznej odzyskiwanie danych po awarii jest bardzo proste. Przedsiębiorstwa i specjaliści IT nie muszą już martwić się planowaniem kosztownej i złożonej strategii DR – przekonuje Zac Cohen. 

Usługi chmurowe związane z przechowywaniem danych są dość przystępne cenowo, ale jeśli znajdują się w kilku różnych centrach danych koszty rosną. Przykładowo przechowywanie 1 TB danych w trzech regionach Amazona wiąże się z wydatkiem 200 dol. miesięcznie. Za te same usługi klient Filebase płaci 5,99 dol. miesięcznie. Niewykluczone, że będzie to argument, który sprawi, że firmy zaczną się interesować usługami, które na razie są niszowe.