Rurociągi z danymi

Analiza danych w czasie rzeczywistym wzbudza duże zainteresowanie wśród menedżerów czy marketerów, a największą zaletą jest szybkość działania. To oczywiste, bo im krócej firma czeka na dostęp do danych, tym szybciej zrobi nich użytek. Rozwiązania, które pozwalają pracować firmom na najświeższych danych, dostarcza Equalum, założony w 2015 r. startup z Tel Awiwu, który zebrał od funduszy venture capital 39 mln dol. Opracowana przez Equalum platforma, oprócz integracji danych, realizuje takie zadania jak strumieniowe przesyłanie danych czy zmiana przechwytywania danych (CDC). Ta ostatnia funkcja polega na rejestrowaniu, śledzeniu i aktualizowaniu zmiany danych w czasie rzeczywistym.

Platforma Equalum łączy dane pochodzące ze środowiska chmurowego i lokalnego, różne interfejsy API, jeziora i hurtownie danych. Ich integracja jest złożonym procesem, tym bardziej, że odbywa się w czasie rzeczywistym.

– Nasze rozwiązania najczęściej służą do śledzenia poczynań klientów w czasie rzeczywistym. Sprzedawca wie, co internauta kupuje w sklepie online i może mu natychmiast polecić kolejny produkt – tłumaczy Eyal Perlson, wiceprezes Equalum ds. marketingu.

I znowu, izraelski startup nie jest jedynym, który podjął się tego karkołomnego wyzwania. W ostatnich latach powstało kilka firm (Fivetran, Hevo, Striim) budujących „rurociągi danych”.

Podróże w czasie z LakeFS

Treeverse rozpoczął swoją działalność w styczniu 2020 r. Założycielami firmy są Einat Orr (CEO) oraz Oz Katz (CTO), którzy poznali się w SimilarWeb, znanej firmie zajmującej się analizą ruchu internetowego. Tam też po raz pierwszy spotkali się z problemami, jakie niesie ze sobą praca z dużymi zbiorami danych i obiektowymi pamięciami masowymi. Czasami nawet niewielki błąd prowadzi do ogromnego zamieszania, a jego odnalezienie, a następnie korekta, może zająć nawet kilkanaście dni. Einat Orr i Oz Katz stworzyli LakeFS, narzędzie open source przekształcające obiektową pamięć masową w repozytorium podobne do Git (rozproszony system kontroli wersji opracowany przez Linusa Torvaldsa). Opracowane przez nich środowisko programistyczne działa w izolacji, ale zespoły IT mogą śledzić ewolucję różnych wersji swoich danych. Programiści potrzebują do działania danych produkcyjnych i często tworzą kompletne kopie różnych migawek lub backupu wykonywanego w różnym czasie. Śledzenie różnic jest trudne, a rozprzestrzenianie się kopii powoduje chaos i wzrost potrzeb w zakresie przechowywania danych.

W rezultacie LakeFS pozwala na zarządzanie danymi tak, jak zarządza się kodem. Dane źródłowe są przechowywane w zasobnikach obiektów – S3 w AWS, Azure Blob, GCP i MinIO. LakeFS tworzy zdeduplikowane metadane, wskaźniki do danych źródłowych, zarządza nimi i na nich działa.

– LakeFS pozwala podróżować w czasie między poszczególnymi wersjami i cofać się do wersji danych sprzed wyświetlania błędu. Można powiedzieć, że to wehikuł czasu – tłumaczy Einat Orr. LakeFS może być przydatny w różnych sytuacjach. Na przykład handlowiec uzmysłowił sobie, że dzień wcześniej popełnił błąd, podając niewłaściwą wartość transakcji. Wchodzi do systemu i nanosi poprawkę. Inna sytuacja wiąże się z koniecznością wykonania ponownych obliczeń na rzecz modelu uczenia maszynowego, do czego nieodzowna jest starsza wersja danych. Użytkownikami LakeFS są Shell, Lockheed Martin, Walmart, Volvo, NASA, Netflix i SimilarWeb. W tym segmencie Treeverse musi konkurować z AWS-em, które dostarcza na rynek Lake Formation Service.