Snowflake: wyższa wydajność chmury danych

Zapewnianie optymalnej wydajności i skalowalności mechanizmów analitycznych w dużych repozytoriach danych to duże wyzwanie. Snowflake traktuje to zadanie priorytetowo w odniesieniu do swojego flagowego produktu – autorskiej Chmury Danych (Snowflake’s Data Cloud).

Podczas czerwcowej edycji konferencji Snowflake Summit 2023 firma zaprezentowała nowe funkcje Chmury Danych Snowflake, która ułatwia przedsiębiorstwom uzyskiwanie wartości z posiadanych danych. Wyposażono ją między innymi w mechanizm dużego modelu językowego bazującego na technologii stworzonej przez polskich inżynierów z przejętej przez Snowflake firmy Applica, zapewniono możliwość integracji ze środowiskiem Apache Iceberg Tables, jak też przedstawiono pierwsze wyniki pracy nowej wersji wskaźnika pomiaru wydajności SPI.

Snowflake rozwija też swoją platformę, aby obsługiwać szerszy zestaw zaawansowanych funkcji analitycznych, w tym mechanizmy uczenia maszynowego dla użytkowników baz SQL. Firma rozszerzyła także funkcje ujednoliconego zarządzania i prywatności o nowe wskaźniki jakości danych i mechanizmy ich klasyfikacji.

Duże modele językowe w Chmurze Danych

Według IDC w ciągu najbliższych pięciu lat ponad 90 proc. danych na świecie będzie nieustrukturyzowanych – w postaci dokumentów, obrazów, wideo, audio i innych. Te ogromne zbiory są zazwyczaj rutynowo przechowywane przez firmy, jednak uzyskanie z nich jakichkolwiek wartościowych informacji jest trudne. Do niedawna wymagało to realizowania ręcznych, podatnych na błędy procesów przez osoby, których umiejętności nie zawsze były wystarczające.

Obecnie problem ten jest w stanie rozwiązać firma Snowflake za pomocą wbudowanej w Chmurę Danych funkcji Document AI, która została zaprojektowana przez zespół specjalistów z przejętej we wrześniu 2022 roku firmy Applica. Zawiera ona mechanizmy sztucznej inteligencji umożliwiające analizę nieustrukturyzowanych danych, ułatwiającą ich zrozumienie oraz wydobycie z nich wartości za pomocą przetwarzania języka naturalnego. Funkcja ta znajduje się obecnie w fazie prywatnych testów dla wybranych użytkowników.

Document AI jest wyposażony w specjalny duży model językowy (LLM), dzięki któremu w platformie Snowflake dostępna jest funkcja łatwego wyszukiwania w dokumentach PDF takich treści jak kwoty faktur lub warunki umów. Użytkownik może następnie przekazać informacje zwrotne za pomocą interfejsu wizualnego i języka naturalnego, aby dostosować wyniki, a następnie odpowiednio przetrenować model. Możliwe jest również pobieranie informacji o strukturze tych dokumentów, przechowywanie jej w tabeli lub przekazanie do innej aplikacji. Po wprowadzeniu funkcji Document AI do publicznego użytku będzie ona rozszerzana na więcej typów nieustrukturyzowanych danych.

Lodowe tabele w Snowflake

Rozwiązanie Apache Iceberg stale zyskuje na popularności jako standard branżowy dla otwartych formatów tabel. Oprogramowanie to bazuje na otwartym źródle, które zostało stworzone w celu efektywnego zarządzania dużymi zbiorami danych w ekosystemie Hadoop oraz innych systemach przetwarzania danych. Jego głównym celem jest dostarczenie niezmiennej struktury przechowywania danych, która umożliwia zarówno efektywne zapytania analityczne, jak i zmiany danych w sposób zbliżony do tradycyjnych relacyjnych baz danych.

Jednym z głównych aspektów rozwiązania Apache Iceberg jest jego zdolność do obsługi operacji czasu rzeczywistego, przeprowadzanych na dużych zbiorach danych. Dzięki mechanizmowi „table snapshots” Iceberg umożliwia równoczesny dostęp do różnych wersji danych, co jest niezwykle przydatne w środowiskach, w których często ulegają one zmianom. System ten umożliwia również odczyt danych w sposób spójny (nawet jeśli są one zmieniane w trakcie odczytu), a jest to funkcja kluczowa w przypadku operacji analitycznych.

Jedną z nowości w ramach Snowflake Data Cloud jest jego integracja z architekturą Apache Iceberg Tables. Dzięki temu firmy mogą pracować z danymi w formacie Apache Iceberg przechowywanymi we własnym repozytorium (niezależnie od tego, czy są one zarządzane przez Snowflake, czy zewnętrznie), a jednocześnie czerpać korzyści z łatwości użytkowania, wydajności i ujednoliconego zarządzania charakterystycznego dla platformy Snowflake. Takie podejście upraszcza zarządzanie danymi, eliminując potrzebę przenoszenia lub kopiowania ich między systemami, a jednocześnie zwiększa elastyczność tego procesu i wpływa na obniżenie kosztów.

Kluczowe cechy nowoczesnej platformy danych

Nowoczesna platforma danych, aby zagwarantować właściwy poziom skalowalności i automatyzacji pracy, powinna charakteryzować się takimi cechami, jak:

Elastyczność – wydajne środowisko wyszukiwania i analizowania informacji umożliwia zarządzanie wszystkimi danymi, w tym ustrukturyzowanymi, częściowo ustrukturyzowanymi i nieustrukturyzowanymi.
Skalowalność – gotowość na przyrost ilości danych i ich częste zmiany, bez wpływu na wydajność ich automatycznej klasyfikacji.
Bezpieczeństwo – spójne zasady dostępu do danych, które ich administrator może definiować i egzekwować zgodnie z wymogami zgodności z regulacjami.
Wysoki stopień automatyzacji – zapewnia łatwe skalowanie i zmniejsza prawdopodobieństwo narażenia na naruszenie bezpieczeństwa oraz zgodności.
Heterogeniczność – zdolność do obsługi danych z różnych środowisk i aplikacji.