Snowflake: wyższa wydajność chmury danych
Zapewnianie optymalnej wydajności i skalowalności mechanizmów analitycznych w dużych repozytoriach danych to duże wyzwanie. Snowflake traktuje to zadanie priorytetowo w odniesieniu do swojego flagowego produktu – autorskiej Chmury Danych (Snowflake’s Data Cloud).

Podczas czerwcowej edycji konferencji Snowflake Summit 2023 firma zaprezentowała nowe funkcje Chmury Danych Snowflake, która ułatwia przedsiębiorstwom uzyskiwanie wartości z posiadanych danych. Wyposażono ją między innymi w mechanizm dużego modelu językowego bazującego na technologii stworzonej przez polskich inżynierów z przejętej przez Snowflake firmy Applica, zapewniono możliwość integracji ze środowiskiem Apache Iceberg Tables, jak też przedstawiono pierwsze wyniki pracy nowej wersji wskaźnika pomiaru wydajności SPI.
Snowflake rozwija też swoją platformę, aby obsługiwać szerszy zestaw zaawansowanych funkcji analitycznych, w tym mechanizmy uczenia maszynowego dla użytkowników baz SQL. Firma rozszerzyła także funkcje ujednoliconego zarządzania i prywatności o nowe wskaźniki jakości danych i mechanizmy ich klasyfikacji.
Duże modele językowe w Chmurze Danych
Według IDC w ciągu najbliższych pięciu lat ponad 90 proc. danych na świecie będzie nieustrukturyzowanych – w postaci dokumentów, obrazów, wideo, audio i innych. Te ogromne zbiory są zazwyczaj rutynowo przechowywane przez firmy, jednak uzyskanie z nich jakichkolwiek wartościowych informacji jest trudne. Do niedawna wymagało to realizowania ręcznych, podatnych na błędy procesów przez osoby, których umiejętności nie zawsze były wystarczające.
Obecnie problem ten jest w stanie rozwiązać firma Snowflake za pomocą wbudowanej w Chmurę Danych funkcji Document AI, która została zaprojektowana przez zespół specjalistów z przejętej we wrześniu 2022 roku firmy Applica. Zawiera ona mechanizmy sztucznej inteligencji umożliwiające analizę nieustrukturyzowanych danych, ułatwiającą ich zrozumienie oraz wydobycie z nich wartości za pomocą przetwarzania języka naturalnego. Funkcja ta znajduje się obecnie w fazie prywatnych testów dla wybranych użytkowników.
Document AI jest wyposażony w specjalny duży model językowy (LLM), dzięki któremu w platformie Snowflake dostępna jest funkcja łatwego wyszukiwania w dokumentach PDF takich treści jak kwoty faktur lub warunki umów. Użytkownik może następnie przekazać informacje zwrotne za pomocą interfejsu wizualnego i języka naturalnego, aby dostosować wyniki, a następnie odpowiednio przetrenować model. Możliwe jest również pobieranie informacji o strukturze tych dokumentów, przechowywanie jej w tabeli lub przekazanie do innej aplikacji. Po wprowadzeniu funkcji Document AI do publicznego użytku będzie ona rozszerzana na więcej typów nieustrukturyzowanych danych.
Lodowe tabele w Snowflake
Rozwiązanie Apache Iceberg stale zyskuje na popularności jako standard branżowy dla otwartych formatów tabel. Oprogramowanie to bazuje na otwartym źródle, które zostało stworzone w celu efektywnego zarządzania dużymi zbiorami danych w ekosystemie Hadoop oraz innych systemach przetwarzania danych. Jego głównym celem jest dostarczenie niezmiennej struktury przechowywania danych, która umożliwia zarówno efektywne zapytania analityczne, jak i zmiany danych w sposób zbliżony do tradycyjnych relacyjnych baz danych.
Jednym z głównych aspektów rozwiązania Apache Iceberg jest jego zdolność do obsługi operacji czasu rzeczywistego, przeprowadzanych na dużych zbiorach danych. Dzięki mechanizmowi „table snapshots” Iceberg umożliwia równoczesny dostęp do różnych wersji danych, co jest niezwykle przydatne w środowiskach, w których często ulegają one zmianom. System ten umożliwia również odczyt danych w sposób spójny (nawet jeśli są one zmieniane w trakcie odczytu), a jest to funkcja kluczowa w przypadku operacji analitycznych.
Jedną z nowości w ramach Snowflake Data Cloud jest jego integracja z architekturą Apache Iceberg Tables. Dzięki temu firmy mogą pracować z danymi w formacie Apache Iceberg przechowywanymi we własnym repozytorium (niezależnie od tego, czy są one zarządzane przez Snowflake, czy zewnętrznie), a jednocześnie czerpać korzyści z łatwości użytkowania, wydajności i ujednoliconego zarządzania charakterystycznego dla platformy Snowflake. Takie podejście upraszcza zarządzanie danymi, eliminując potrzebę przenoszenia lub kopiowania ich między systemami, a jednocześnie zwiększa elastyczność tego procesu i wpływa na obniżenie kosztów.
Nowoczesna platforma danych, aby zagwarantować właściwy poziom skalowalności i automatyzacji pracy, powinna charakteryzować się takimi cechami, jak:
- Elastyczność – wydajne środowisko wyszukiwania i analizowania informacji umożliwia zarządzanie wszystkimi danymi, w tym ustrukturyzowanymi, częściowo ustrukturyzowanymi i nieustrukturyzowanymi.
- Skalowalność – gotowość na przyrost ilości danych i ich częste zmiany, bez wpływu na wydajność ich automatycznej klasyfikacji.
- Bezpieczeństwo – spójne zasady dostępu do danych, które ich administrator może definiować i egzekwować zgodnie z wymogami zgodności z regulacjami.
- Wysoki stopień automatyzacji – zapewnia łatwe skalowanie i zmniejsza prawdopodobieństwo narażenia na naruszenie bezpieczeństwa oraz zgodności.
- Heterogeniczność – zdolność do obsługi danych z różnych środowisk i aplikacji.
Podobne artykuły
Niepewna przyszłość w ochronie zdrowia
W sektorze medycznym finalizowane są projekty informatyczne ze środków unijnych, które zostały uruchomione w poprzednich latach. Ze względu na możliwy brak kolejnych funduszy, w przyszłym roku integratorzy muszą liczyć się ze spadkiem przychodów.
Exea Data Center: przewidywalność i korzystna lokalizacja
Exea Data Center – całkowicie polski dostawca usług w sektorze centrów danych – deklaruje, że wyeliminował wszystkie możliwe czynniki, które przekładają się na ryzyko otrzymania przez polskich klientów zaskakująco wysokich rachunków za usługi chmurowe.
Zwiększona ochrona z Acronis Cyber Protect Cloud
Przywracanie urządzeń klienckich do pracy po awarii lub udanym ataku cyberprzestępców to długotrwałe, a przy tym stresujące wyzwanie. Dzięki chmurowym usługom Acronis można je zautomatyzować i odzyskać dostęp do danych w zaledwie kilka minut.